Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Muitas pessoas gostam de comparar diferentes classes de modelos como "raciocínio" ou "não raciocínio", onde na realidade agora todos são treinados com uma boa quantidade das mesmas técnicas de aprendizado por reforço (e outras coisas).
A visão correta é ver cada versão de modelo em um espectro de esforço de raciocínio. Muitos dizem que o Claude é um modelo sem raciocínio, mas eles foram um dos primeiros a ter tokens especiais e um UX para "pensar profundamente, aguardar" (bem antes de seu modo de pensamento estendido). O mesmo pode ser verdade para o DeepSeek v3.1, que foi lançado, mas ainda não é fácil de usar. Não temos ideia de quantos tokens por resposta são usados nas versões de bate-papo desses modelos por padrão.
APIs com contagens exatas de tokens são a única fonte de verdade e devem ser comunicadas com muito mais frequência.
Então, dentro dos modelos de raciocínio, há uma enorme variação no número de tokens usados. O preço dos modelos deve ser a consideração final do esforço, uma mistura do total de parâmetros ativos e o número de tokens usados. Ouvindo Dylan Patel no podcast a16z, parece que uma das grandes vitórias do GPT-5 no modo de pensamento que eu amo (semelhante ao o3) foi obter resultados um pouco melhores com quase 50% menos tokens. Eu senti isso um pouco, é apenas mais uma tarefa do que o3.
Outro ponto é que a segunda geração de R1, R1-0528 melhorou as pontuações usando muito mais raciocínio. Qwen tem sido semelhante. Isso nem sempre é muito valioso para o usuário.
Em um nível técnico, resolvemos isso relatando o número de tokens usados por modelo nos resultados da avaliação (especialmente em relação aos pares). O problema é que os lançamentos de IA agora são bastante populares e é um detalhe técnico diferenciado para se comunicar.
No lado da pesquisa, por exemplo, você pode aumentar significativamente suas pontuações de avaliação avaliando seu modelo de raciocínio em um contexto mais longo do que seus colegas.
O esforço de raciocínio em tokens e, às vezes, no prompt do sistema, agora é uma variável complexa, mas não um simples sim/não em todas essas versões.
Abaixo está uma captura de tela de uma postagem discutindo isso antes do lançamento do o1 (12 de setembro do ano passado) e uma captura de tela de um usuário do reddit que descobriu o comportamento de pensamento de Claude.
Guardando este discurso retórico para referência futura porque preciso repeti-lo o tempo todo.


25,78K
Melhores
Classificação
Favoritos