On jest Arthur Mensch, założyciel Mistral.
To jest niepokojący stan rzeczy, jak wielu ludzi wzięło udział w tym wystąpieniu.
Jest bardzo prawdopodobne, że tak się stanie, jeśli ograniczysz rzeczywistych budowniczych i pozwolisz tylko biurokratom + <invite-only> wielkim braciom. Żałosne.
zbudowali GLM-5 bez polegania na dużych klastrach NVIDIA, ale głównie na krajowym chińskim sprzęcie, który jest mniej dojrzały jako ekosystem, a co ciekawe, zagrali tutaj naprawdę sprytnie z optymalizacjami w zakresie kwantyzacji, rdzeni, asynchronicznego harmonogramowania, równoległości itp.
Prezentujemy Raport Techniczny GLM-5!
Po uruchomieniu GLM-5 odsłaniamy kulisy jego budowy. Kluczowe innowacje obejmują:
- Przyjęcie DSA: Znacząco obniża koszty szkolenia i wnioskowania, zachowując wierność długiego kontekstu
- Infrastruktura RL asynchronicznego: Drastycznie poprawia efektywność po szkoleniu, oddzielając generację od szkolenia
- Algorytmy RL agenta: Umożliwiają modelowi skuteczniejsze uczenie się z złożonych, długoterminowych interakcji
Dzięki tym innowacjom GLM-5 osiąga SOTA wydajność wśród modeli open-source, z szczególnie silnymi wynikami w rzeczywistych zadaniach inżynierii oprogramowania.