我真的很喜欢@beffjezos和@extropic在这个播客中对热力学的类比。 他提到了麦克斯韦的妖怪👹,一个燃烧能量以严格将分子(热或冷)分成两个房间的存在。 这帮助我更好地理解了GPU和热力学之间的区别。 在AI中,我们扮演着妖怪的角色,因为我们强迫晶体管进入严格的状态,仅仅为了保持一个单一的参数。每个参数都是介于0和1之间的数字。我们在这个过程中消耗大量能量来对抗熵并维持这些特定的数字。 这以及巨大的GPU数量就是我们需要核反应堆和大量能量来运行数据中心的原因。 在数学上,参数是固定的,但在物理上,保持这种精度是一场与热量的持续斗争。数字芯片必须消耗大量能量来放大信号,以克服自然热噪声,仅仅是为了防止数据随机化。这就是为什么GPU的电费会飙升的原因。 热力学计算停止与物理抗争。它将热波动视为资源,而不是错误,并利用它们自然地对分布进行采样。这是完全不同的。 我们不再需要使用大量能量来维持严格的数字,而是可以在数量级上以更少的能量运行AI模型。 这使我们摆脱了目前在AI领域中无休止的电力/计算之旅。 我在这里的研究刚刚开始,所以可能有些地方说错了。 附上的图片是Gemini对数字和热力学之间差异的非常有用的比较。