很多人喜欢将不同类别的模型进行比较,比如“推理”或“非推理”,但实际上现在它们都是使用相同的强化学习技术(以及其他东西)进行训练的。 正确的看法是将每个模型的发布视为推理努力的一个光谱。许多人说Claude是一个非推理模型,但他们是最早拥有特殊标记和“深思熟虑,稍等”的用户体验的模型之一(在他们的扩展思考模式之前)。对于已经发布但尚不易用的DeepSeek v3.1也可能是如此。我们不知道这些模型的聊天版本默认使用了多少个标记。 具有确切标记计数的API是唯一的真实来源,应该更频繁地进行沟通。 然后,在推理模型中,使用的标记数量差异巨大。模型的价格应该是努力的最终考虑因素,结合总的活跃参数和使用的标记数量。在a16z播客中听到Dylan Patel时,似乎GPT-5在我喜欢的思考模式(类似于o3)中的一个重大胜利是以几乎减少50%的标记获得稍微更好的结果。我感觉到这一点,它在任务上比o3更专注。 另一个要点是R1的第二代,R1-0528通过使用更多的推理来提高分数。Qwen也类似。这对用户来说并不总是超级有价值。 在技术层面上,我们通过在评估结果中报告每个模型使用的标记数量来解决这个问题(尤其是相对于同类模型)。问题是AI发布现在相当主流,而这是一个微妙的技术细节需要沟通。 在研究方面,例如,通过在比同行更长的上下文中评估推理模型,可以有意义地提高评估分数。 标记中的推理努力,有时在系统提示中,现在是一个复杂的变量,而不是所有这些发布中的简单是/否。 下面是一个截图,来自于在o1发布之前(去年9月12日)讨论此事的帖子,以及一个reddit用户发现Claude思考行为的截图。 保存这个长篇大论以备将来参考,因为我需要不断重复这一切。
25K