Він — Артур Менш, засновник Містраля.
Це викликає занепокоєння щодо того, скільки людей відвідали цю основну доповідь.
Це дуже ймовірно, якщо обмежити справжніх будівельників і дозволити лише бюрократам + <invite-only> старшим братам. Жалюгідно.
вони створили GLM-5 без великих кластерів NVIDIA, а здебільшого на внутрішньому китайському апаратному забезпеченні, яке менш зріле як екосистема, і цікаво, що тут вони дуже розумно оптимізували квантування, ядра, асинхронне планування, паралелізм тощо.
Представляємо технічний звіт GLM-5!
Після запуску GLM-5 ми розкриваємо завісу щодо того, як він був створений. Ключові інновації включають:
- Впровадження DSA: Суттєво знижує витрати на навчання та висновки, зберігаючи довготривалу точність контексту
- Асинхронна інфраструктура RL: Суттєво підвищує ефективність після навчання, відокремлюючи генерацію від навчання
- Алгоритми агента RL: Дозволяють моделі ефективніше навчатися на складних довготривалих взаємодіях
Завдяки цим інноваціям GLM-5 досягає SOTA-продуктивності серед відкритих моделей, особливо сильні в реальних задачах програмної інженерії.