Он Артур Менш, основатель Mistral.
Это касается состояния дел, сколько людей посетило этот ключевой доклад.
Это очень вероятно, если вы ограничите настоящих строителей и допустите только бюрократов + <по приглашению> больших братьев. Жалко.
они построили GLM-5, не полагаясь на большие кластеры NVIDIA, а в основном на отечественное китайское оборудование, которое менее развито как экосистема, и, что интересно, они действительно проявили смекалку в оптимизациях по квантованию, ядрам, асинхронному планированию, параллелизму и т.д.
Представляем Технический отчет GLM-5!
После запуска GLM-5 мы приоткрываем завесу над тем, как он был создан. Ключевые инновации включают:
- Принятие DSA: Значительно снижает затраты на обучение и вывод, сохраняя при этом точность длинного контекста
- Инфраструктура асинхронного RL: Резко улучшает эффективность после обучения, отделяя генерацию от обучения
- Алгоритмы агентного RL: Позволяют модели более эффективно учиться на сложных взаимодействиях с длинным горизонтом
Благодаря этим инновациям GLM-5 достигает SOTA производительности среди моделей с открытым исходным кодом, особенно показывая сильные результаты в реальных задачах программной инженерии.