Lui è Arthur Mensch, Fondatore di Mistral.
Questa è una situazione preoccupante riguardo a quante persone hanno partecipato a questo keynote.
È molto probabile che accada se si limitano i veri costruttori e si lasciano entrare solo i burocrati + <invite-only> grandi fratelli. Patetico.
hanno costruito GLM-5 senza fare affidamento su grandi cluster NVIDIA, ma principalmente su hardware cinese domestico, che è meno maturo come ecosistema e, curiosamente, hanno giocato davvero in modo intelligente qui con ottimizzazioni su quantizzazione, kernel, pianificazione asincrona, parallelismo, ecc.
Presentazione del Rapporto Tecnico GLM-5!
Dopo il lancio di GLM-5, stiamo svelando come è stato costruito. Le innovazioni chiave includono:
- Adozione DSA: Riduce significativamente i costi di addestramento e inferenza mantenendo la fedeltà del lungo contesto
- Infrastruttura RL Asincrona: Migliora drasticamente l'efficienza post-addestramento separando la generazione dall'addestramento
- Algoritmi RL per Agenti: Consente al modello di apprendere in modo più efficace da interazioni complesse e a lungo termine
Grazie a queste innovazioni, GLM-5 raggiunge prestazioni SOTA tra i modelli open-source, con risultati particolarmente forti in compiti di ingegneria del software nel mondo reale.