Ele é Arthur Mensch, Fundador da Mistral.
Isto é preocupante em relação ao estado das coisas sobre quantas pessoas assistiram a esta palestra.
É muito provável que isso aconteça se você restringir os verdadeiros construtores e deixar apenas burocratas + <invite-only> grandes irmãos. Patético.
eles construíram o GLM-5 sem depender de grandes clusters da NVIDIA, mas principalmente em hardware doméstico chinês, que é menos maduro como ecossistema e, curiosamente, eles jogaram muito bem aqui com otimizações sobre quantização, núcleos, agendamento assíncrono, paralelismo, etc.
Apresentando o Relatório Técnico do GLM-5!
Após o lançamento do GLM-5, estamos levantando o véu sobre como ele foi construído. As principais inovações incluem:
- Adoção de DSA: Reduz significativamente os custos de treinamento e inferência, preservando a fidelidade de longo contexto
- Infraestrutura de RL Assíncrona: Melhora drasticamente a eficiência pós-treinamento ao desacoplar a geração do treinamento
- Algoritmos de RL de Agente: Permite que o modelo aprenda de interações complexas e de longo prazo de forma mais eficaz
Através dessas inovações, o GLM-5 alcança desempenho SOTA entre modelos de código aberto, com resultados particularmente fortes em tarefas de engenharia de software do mundo real.