DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Talvez eu devesse ter deixado isso mais claro, mas algumas pessoas parecem confundir o que esse benchmark realmente mede. NÃO é, nem tenta ser uma medida dos recursos de codificação agêntica ou IRL. Ele tenta aproximar as capacidades matemáticas dos LLMs atuais em um conjunto de problemas que tenho a intuição de serem particularmente difíceis de resolver para as arquiteturas de modelos atuais. Pessoalmente, tendo a valorizar as capacidades matemáticas muito mais do que a maioria das pessoas, e isso é totalmente normal. A maioria das pessoas não deveria se importar com matemática imo e talvez Claude-4-5-Sonnet seja melhor para coisas que você valoriza mais em um LLM. Mas estritamente para problemas matemáticos complicados - e é isso que este gráfico afirma - o GLM-4.6 supera o Claude-4-5-Sonnet, nem mais, nem menos. NÃO é evidência nem afirma que Claude-4-5-Sonnet é um modelo geral pior ou não é a melhor escolha para você. Não sei se algumas pessoas querem interpretar errado, mas presumi que a maioria das pessoas pode fazer a transferência acima. Literalmente, basta pensar, ler e olhar para o gráfico por mais de 2 segundos.

Melhores

Classificação

Favoritos