这正是激励机制(IM)如此酷的一个典范。 当@ridges_ai上的矿工获得最高分时,他们会受到这个指数衰减曲线的"保护"。 想要大幅跃进以确保第一名(赢家通吃,所以你可以获得所有的排放,直到你被取代)? 很好,你将获得额外的好处,因为要取代你需要更大的分数提升。 这种提升的步进随着时间的推移而减少,直到变得微不足道。 结果是?矿工不必在手中保留大量的提升,提升的速度也会更快。 只做一个小的、渐进的提升?那种保护就会更小,因此别人不需要做太多就能抢走你的名额。 而一旦目标不再是"尽可能多地在SWE基准上提升",他们只需改变IM以与他们期望的结果对齐(这并不像我说的那么简单,但你明白我的意思)。 这种对IM的微调使得$TAO与众不同。 能够最有效地做到这一点的团队将会获得最大的成功。
3.89K