热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jeffrey Emanuel
我在这里的所有缩略语和行话中有点迷失,所以我让Claude不使用任何缩略语来解释,现在一切都变得非常清晰(简而言之;带宽 ⟹ 简单性):
这是关于大规模训练大型语言模型的一个引人入胜的技术讨论。
核心对话
Jingyuan Liu 对发现使用TPU(张量处理单元 - 谷歌的专用AI芯片)与GPU(图形处理单元 - 通常是NVIDIA的芯片)时不需要某些复杂的优化技术感到惊讶。
关键技术概念解释:
硬件类型:
• GPU(图形处理单元):最初设计用于图形,现在广泛用于AI。NVIDIA主导了这个市场。
• TPU(张量处理单元):谷歌专门为机器学习设计的定制芯片。
并行策略:
在训练大型AI模型时,您需要将工作分配到多个芯片上。有几种方法可以做到这一点:
1)数据并行(DP):每个芯片处理不同批次的数据,使用相同的模型副本
2)张量并行(TP):模型的数学运算分布在多个芯片上
3)流水线并行(PP):模型的不同层放置在不同的芯片上,形成一个流水线
正在讨论的技术挑战:
辅助损失问题:在训练非常大的模型时,您通常会在中间层添加“辅助损失”(额外的训练目标),以帮助梯度更好地在网络中流动。在PPVP(具有可变分区的流水线并行)约束下,这变得复杂,因为:
• 您需要进行“所有前向传播,然后所有反向传播”
• 这对峰值内存使用是一个挑战,因为您必须存储中间结果
DeepSeek的创新:他们开发了一种“无辅助偏差”设计,显然在仍然有效训练的同时避免了需要这些辅助损失。
令人惊讶的发现:
高级专家告诉Jingyuan,在K2或DSV3规模的TPU(这些是具有数百或数千个芯片的集群配置)下,您可以在不使用流水线并行的情况下实现出色的MFU(模型FLOPs利用率 - 基本上是您使用硬件的效率)。
为什么这令人惊讶?
• 流水线并行通常被认为是大规模训练的必要条件
• 这是一种复杂的技术,需要仔细优化
• 能够避免它显著简化了一切
Horace He的解释:
他解释了为什么这在TPU上是可能的:
带宽优势:TPU和高端NVIDIA集群(如NVL72 - NVIDIA最新的72-GPU配置,带有NVLink互连)之间的带宽如此之高,以至于它们可以在没有流水线并行的情况下处理通信需求。
关键见解:
• 当您在“DP通信上受瓶颈限制”时,主要需要流水线并行(受限于在数据并行训练期间的通信速度)
• 如果您在一个足够大的领域(互连集群)中有足够的带宽,您可以使用更简单的并行策略
• 这可以“持续很长时间” - 意味着您可以在不达到限制的情况下训练非常大的模型
直觉:
把它想象成一个高速公路系统:
• 传统的GPU集群就像城市之间有狭窄的道路,因此您需要复杂的路由(流水线并行)来避免交通堵塞
• TPU集群或NVLink连接的GPU就像拥有巨大的超级高速公路 - 您可以直接发送所有内容,而无需复杂的路由
这很重要,因为流水线并行的实现、调试和优化都很复杂。能够在仍然实现高效率的同时避免它,使整个训练过程变得更简单、更可靠。
讨论强调了硬件互连技术的进步(芯片之间的“道路”)如何从根本上改变高效AI训练所需的软件策略。

16.74K
我在这里的所有缩略语和行话中有点迷失,所以我让Claude不使用任何缩略语来解释,现在一切都变得非常清晰(简而言之;带宽 ⟹ 简单性):
这是关于大规模训练大型语言模型的一个引人入胜的技术讨论。
核心对话
Jingyuan Liu 对发现使用TPU(张量处理单元 - 谷歌的专用AI芯片)与GPU(图形处理单元 - 通常是NVIDIA的芯片)时不需要某些复杂的优化技术感到惊讶。
关键技术概念解释:
硬件类型:
• GPU(图形处理单元):最初设计用于图形,现在广泛用于AI。NVIDIA主导这个市场。
• TPU(张量处理单元):谷歌专为机器学习设计的定制芯片。
并行策略:
在训练大型AI模型时,您需要将工作分配到多个芯片上。有几种方法可以做到这一点:
1 数据并行(DP):每个芯片处理不同批次的数据,使用相同的模型副本
2 张量并行(TP):模型的数学运算分布在多个芯片上
3 流水线并行(PP):模型的不同层放置在不同的芯片上,形成一个流水线
正在讨论的技术挑战:
辅助损失问题:在训练非常大的模型时,您通常会在中间层添加“辅助损失”(额外的训练目标),以帮助梯度更好地流动通过网络。在PPVP(具有可变分区的流水线并行)约束下,这变得复杂,因为:
• 您需要进行“所有前向传递,然后所有反向传递”
• 这对峰值内存使用是一个挑战,因为您必须存储中间结果
DeepSeek的创新:他们开发了一种“无辅助偏差”设计,显然避免了在仍然有效训练的情况下需要这些辅助损失。
令人惊讶的发现:
高级专家告诉Jingyuan,在K2或DSV3规模的TPU(这些是具有数百或数千个芯片的集群配置)下,您可以在不使用流水线并行的情况下实现出色的MFU(模型FLOPs利用率 - 基本上是您使用硬件的效率)。
为什么这令人惊讶?
• 流水线并行通常被认为是大规模训练的必要条件
• 这是一种复杂的技术,需要仔细优化
• 能够避免它显著简化了一切
Horace He的解释:
他解释了为什么这在TPU上是可能的:
带宽优势:TPU和高端NVIDIA集群(如NVL72 - NVIDIA最新的72-GPU配置,带有NVLink互连)之间的带宽如此之高,以至于它们可以在没有流水线并行的情况下处理通信需求。
关键见解:
• 当您在“DP通信上瓶颈”时(在数据并行训练期间的通信速度受限),流水线并行主要是必需的
• 如果您在一个足够大的领域(互连集群)中有足够的带宽,您可以使用更简单的并行策略
• 这可以“持续很长时间” - 意味着您可以在不达到限制的情况下训练非常大的模型
直觉:
把它想象成一个高速公路系统:
• 传统的GPU集群就像城市之间有狭窄的道路,因此您需要复杂的路由(流水线并行)来避免交通堵塞
• TPU集群或NVLink连接的GPU就像有巨大的超级高速公路 - 您可以直接发送所有内容,而无需复杂的路由
这很重要,因为流水线并行的实现、调试和优化都很复杂。能够在仍然实现高效率的情况下避免它,使整个训练过程变得更简单、更可靠。
讨论强调了硬件互连技术的进步(芯片之间的“道路”)如何从根本上改变高效AI训练所需的软件策略。

3.47K
我有点惊讶的是,至今还没有人制作出一个《矮人要塞》的MCP服务器,能够让像Codex或Claude Code这样的代理高效地控制游戏并监控状态和进展。
我自己从来没有真正玩过,只是在大约10年前下载过并简单查看了一下,但我喜欢阅读关于它的内容。
这感觉像是一个非常好的大型语言模型(LLM)测试,看看它能让矮人们活得多长久并繁荣发展。
因为每个游戏最终都会导致某种级联灾难,导致所有矮人死亡,所以应该有一个自然的停止点,这使得它成为一个很好的基准候选者。至少这是我对它的理解(玩家的座右铭是“失败是有趣的”)。
在这个游戏中做得好将依赖于工具调用的准确性和持续的长任务一致性,以及监控和理解复杂系统动态的能力,并及时进行干预以预见和应对问题。
而且因为它是终端原生的,可以使用常规令牌高效传输和处理,而不需要多模态图像处理,这使得它比其他游戏更高效。
再加上你知道没有AI实验室为此进行过训练(还没有!),所以它没有受到“基准最大化”的污染。

4.06K
当你需要等几分钟时,有趣的事情就是用你的手机问Claude Opus以下问题,关于某个随机的学科或领域:
“你认为结晶学的核心见解或分析技巧是什么?”
把结晶学换成你能想到的任何东西。到目前为止,我尝试过:
量子电动力学;标准模型;生物化学;概率;进化论;还有很多其他。
强迫模型去做不可能的事情,将一个庞大复杂的领域浓缩成“一个奇怪的技巧”,这让它真正去寻找该领域中最深刻、统一的原则,然后简洁地表达出来。
这往往是从业者显而易见的东西,但对于大多数对该主题仅有略微兴趣的人来说,很可能是未知的。
有趣的是,你还可以用相同的提示反复按“重试”按钮,有时会得到非常不同但通常非常迷人的解释。
我已经从中学到了很多,这可能是我在任何自我导向学习中遇到的最高“每分钟理解量”。
因为它们不仅仅是有趣的事实或酷炫的小知识。它们本质上是深刻而统一的思想,将大量理论和观察到的现象联系在一起。
这无疑比观看又一个带有动画和Brilliant/KiwiCo广告的YouTube解释视频要高效得多!并不是说这些视频有什么问题。




8.01K
最近关于OpenAI出现了如此"人才外流"的想法,以至于他们不再有能力在这个领域中处于领先地位,这种想法和认为GPT-5"是个大失败,模型并不出色且非常渐进"的观点一样,都是误导和错误的。
不仅GPT-5 Pro现在是世界上最聪明的模型,在大多数具有挑战性的现实世界任务中(尤其是编码任务,这些任务现在具有最大的经济重要性)远远领先,而且OpenAI的新codex cli工具执行得非常出色。
他们从编码cli工具的遥远第三名跃升至现在可以说是最好的工具(注意我仍然喜欢并使用Claude Code,这不是非此即彼!),在性能、延迟等方面都远远领先,因为它是用rust编写的。
现在这个cli工具与最佳编码模型结合在一起,具有最佳的工具调用可靠性和最佳的长任务连贯性,且幻觉最少。
不用说,他们的iOS应用在打磨和功能方面也远远优于所有其他AI应用。Claude应用只是Safari沙箱中的网页应用!而他们的网页应用仍然是最好的。搜索等功能在其他应用中表现得更好。基本的阻挡和处理。
所以,是的。一些非常聪明的人,比如Ilya和John Schulman,离开了去其他公司。但他们仍然拥有一支绝对出色的技术团队,拥有非常优秀的产品人员和出色的工程能力。
不要让你对Altman的厌恶蒙蔽了你的眼睛。每当我看到又一个人谈论GPT-5有多糟糕时,我都会感到不安,因为这个人显示出他们无法根据证据和理性独立思考,并被洗脑认为某种观点(并在网上大肆宣扬),因为他们认为这让他们听起来聪明。
34.04K
哇,我终于有时间尝试OpenAI的codex CLI新版本(他们对Claude Code的回应)。
上次我尝试使用codex(注意这与他们的托管编码代理也叫codex不同,这真的让人困惑;我现在说的是你在终端上本地运行的工具),它是作为Nodejs/Typescript应用程序编写的,真的很糟糕:
- 只能访问像o4-mini这样的较弱模型,或者它们的codex变体,令人困惑地也叫codex(真的?)
- 用户界面/用户体验远不如Claude Code
- 由于模型较差、工具较差、代理流程较差,编码效果也差得多。
- 它烦人地强迫你为所有事情提供权限,所以你必须一直照看它,这使得它的实用性大大降低,因为你无法轻松地并行运行多个实例。
- 也许这是一件好事,因为最大的问题是它做了一些非常鲁莽、破坏性的事情;它比CC要随意得多。
这就是我为什么立即停止使用它的原因,因为它决定在没有先存储的情况下执行“git reset --hard HEAD”,我丢失了一些工作。我想再也不想这样了。
好吧,我终于有时间尝试全新的rust版本,它使用GPT-5,并且可以使用你现有的GPT Pro订阅,而不是API密钥,这真是令人震惊的好。
首先,快速编译代码在这种交互式工具中是没有替代品的。
它是用rust编写的,这意味着在键盘输入时完全没有延迟,也没有像CC那样的奇怪伪影,后退键无法正常工作,输入也很卡顿,因为它是用一种解释性语言编写的,这种语言在处理这类事情时慢了一百倍。
处理持续的延迟和卡顿不仅仅是慢,它在心理上甚至可能是情感上都很累人,至少对我来说,当我连续使用这些工具几个小时时,这种感觉是可怕的,甚至会对你的工具感到厌恶和怨恨,尽管你依赖它们来完成工作。
我真的希望这能提高所有这些工具的标准,并说服Anthropic、Google和其他公司也使用rust(或C++、Zig等)。
但真正的大改进显然是模型;如果模型较差,不可靠,无法调用工具,并且在较长任务中失去连贯性,那么rust的流畅性就毫无意义。
但如果你在这里关注我,你就会知道,自从GPT-5 Thinking发布后,我对它的编码能力和工具调用能力感到惊叹,尽管我主要是通过Cursor的代理标签使用它。
底线是,这个新的rust codex突然成为了CC的真正强大竞争者,你绝对应该尝试一下。
我需要看看他们让我在每月200美元的GPT Pro订阅中使用多少,但如果我需要再买几个,那也是非常值得的。
注意,我并没有停止使用CC。我喜欢同时使用这两个工具。信不信由你,我仍然也在使用Cursor。
人们应该停止寻找一个可以替代所有其他工具的单一工具,接受不同工具有不同的优缺点,通过不断使用直观地学习这些,才能获得最佳结果。
无论如何,给自己一个机会,现在就去获取它。最简单的方法是执行这个命令(注意,这将让你获得rust版本,尽管使用bun/npm来做这件事真的很令人困惑):
bun i -g @openai/codex
8.6K
哇,我终于有时间尝试OpenAI的codex CLI的新版本(他们对Claude Code的回应)。
上次我尝试使用codex(注意这与他们的托管编码代理也叫codex不同,这真的让人困惑;我现在说的是你在终端上本地运行的工具),它是作为一个Nodejs/Typescript应用程序编写的,真的很糟糕:
- 只能访问像o4-mini这样的较弱模型,或者它们的codex变体,令人困惑地也叫codex(真的?)
- 用户界面/用户体验比Claude Code差得多
- 由于模型较差、工具较差、代理流程较差,编码效果也差得多。
- 它烦人地强迫你为所有事情提供权限,所以你必须一直照看它,这使得它的实用性大大降低,因为你无法轻松地并行运行多个实例。
- 也许这是一件好事,因为最大的问题是它做了超级鲁莽、破坏性的事情;它比CC要随意得多。这就是我为什么立即停止使用它的原因,因为它决定在没有先存储的情况下执行“reset --hard HEAD”,我丢失了一些工作。我想再也不想这样了。
好吧,我终于有时间尝试全新的rust版本,它使用GPT-5,并且可以使用你现有的GPT Pro订阅,而不是API密钥,这真是令人震惊地好。
首先,快速编译代码在这种交互式工具中是没有替代品的。
它是用rust编写的,这意味着在键盘输入时完全没有延迟,也没有像CC中那样的奇怪伪影,后退键无法正常工作,输入也很卡顿,因为它是用一种解释性语言编写的,这种语言在处理这类事情时慢了一百倍。
处理持续的延迟和卡顿不仅仅是慢,它在心理上甚至可能是情感上令人疲惫和厌倦,至少对我来说,当我使用这些工具几个小时后,这种感觉是可怕的,甚至会对依赖它们完成工作的工具感到厌恶和怨恨。
我真的希望这能提高所有这些工具的标准,并说服Anthropic、Google和其他公司也使用rust(或C++、Zig等)。
但真正的大改进显然是模型;如果模型较差,不可靠于工具调用,并且在较长任务中失去连贯性,那么Rust的流畅性就毫无意义。
但如果你在这里关注我,那么你会知道,自从GPT-5 Thinking发布后,我对它的编码能力和工具调用能力感到惊叹,尽管我主要是通过Cursor的代理标签使用它。
底线是,这个新的rust codex突然成为了CC的真正强大竞争者,你绝对应该尝试一下。
我需要看看他们让我在每月200美元的GPT Pro订阅中使用多少,但如果我需要再买几个,那绝对是值得的。
注意,我并没有停止使用CC。我喜欢同时使用它们。信不信由你,我仍然也在使用Cursor。
人们应该停止寻找一个可以替代所有其他工具的单一工具,接受不同工具有不同的优缺点,通过不断使用直观地学习所有这些,才能获得最佳结果。
无论如何,给自己一个机会,现在就去获取它。最简单的方法是执行这个命令(注意,尽管使用bun/npm来做这件事令人困惑,但这将让你获得rust版本):
bun i -g @openai/codex
718
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可