El este Arthur Mensch, fondatorul Mistral.
Este îngrijorător numărul de persoane care au participat la acest discurs principal.
Este foarte probabil să se întâmple dacă restricționezi constructorii adevărați și lași doar birocrații + <invite-only> frații mai mari. Patetic.
au construit GLM-5 fără să se bazeze pe clustere mari NVIDIA, ci mai ales pe hardware domestic chinezesc, care este mai puțin matur ca ecosistem și, interesant, au jucat foarte bine aici cu optimizări pentru cuantificare, kernel-uri, programare asincronă, paralelism etc.
Prezentăm Raportul Tehnic GLM-5!
După lansarea GLM-5, ridicăm cortina despre cum a fost construit. Inovațiile cheie includ:
- Adopția DSA: Reduce semnificativ costurile de instruire și inferență, păstrând fidelitatea contextului lung
- Infrastructură RL asincronă: Îmbunătățește drastic eficiența post-instruire prin decuplarea generării de antrenament
- Algoritmi Agent RL: Permite modelului să învețe mai eficient din interacțiuni complexe, pe termen lung
Prin aceste inovații, GLM-5 atinge performanța SOTA în rândul modelelor open-source, cu rezultate deosebit de puternice în sarcinile reale de inginerie software.