これは、LLM 推論における非決定性に関する @thinkymachines 年のブログ投稿の MLX の 1 行のコード要約です。 FP数学の非連想性からより大きな影響が得られるため、精度が低いほど差は大きくなると思います。 興味深いことに、これは、低精度(NVFP4を思い浮かべてください)でのトレーニングにより、生成がバッチサイズに対してはるかに敏感になる可能性があることを意味します。