Ele é Arthur Mensch, fundador do Mistral.
É preocupante o estado de coisas de quantas pessoas participaram dessa palestra principal.
É muito provável que aconteça se você restringir construtores de verdade e deixar apenas burocratas + <invite-only> irmãos mais velhos ser patético.
eles construíram o GLM-5 sem depender de grandes clusters NVIDIA, mas principalmente em hardware doméstico chinês, que é menos maduro como ecossistema e, curiosamente, eles foram muito inteligentes aqui com otimizações sobre quantização, kernels, escalonamento assíncrono, paralelismo etc.
Apresentando o Relatório Técnico do GLM-5!
Após o lançamento do GLM-5, vamos revelar como ele foi construído. Principais inovações incluem:
- Adoção da DSA: Reduz significativamente os custos de treinamento e inferência, preservando a fidelidade de contexto longo
- Infraestrutura RL Assíncrona: Melhora drasticamente a eficiência pós-treinamento ao desacoplar a geração do treinamento
- Algoritmos RL de Agentes: Permitem que o modelo aprenda de forma mais eficaz a partir de interações complexas e de longo horizonte
Por meio dessas inovações, o GLM-5 alcança desempenho SOTA entre modelos open-source, com resultados particularmente fortes em tarefas reais de engenharia de software.