Medindo a Eficiência do Pensamento em Modelos de Raciocínio: O Benchmark Ausente Medimos o uso de tokens em modelos de raciocínio: modelos abertos produzem de 1,5 a 4 vezes mais tokens do que modelos fechados em tarefas idênticas, mas com uma enorme variação dependendo do tipo de tarefa (até 10 vezes em perguntas simples). Esse custo oculto muitas vezes anula as vantagens de preços por token. A eficiência de tokens deve se tornar um alvo primário ao lado dos benchmarks de precisão, especialmente considerando casos de uso que não envolvem raciocínio. Leia a análise completa da eficiência de raciocínio em toda a paisagem de modelos abertos e fechados em nosso último post no blog, em colaboração com nosso pesquisador residente, Tim. Veja mais do trabalho deles aqui:
27,08K