Dia adalah Arthur Mensch, Pendiri Mistral.
Ini memprihatinkan keadaan berapa banyak orang yang menghadiri keynote ini.
Ini sangat mungkin terjadi jika Anda membatasi pembangun yang sebenarnya dan membiarkan hanya birokrat + <invite-only> saudara besar.
mereka membangun GLM-5 tanpa bersandar pada kluster NVIDIA besar tetapi sebagian besar pada perangkat keras domestik Cina yang kurang matang sebagai ekosistem dan menariknya mereka bermain sangat cerdas di sini dengan pengoptimalan atas kuantisasi, kernel, penjadwalan asinkron, paralelisme, dll.
Mempresentasikan Laporan Teknis GLM-5!
Setelah peluncuran GLM-5, kami menarik kembali tirai tentang bagaimana pembuatannya. Inovasi utama meliputi:
- Adopsi DSA: Secara signifikan mengurangi biaya pelatihan dan inferensi sekaligus mempertahankan kesetiaan konteks panjang
- Infrastruktur RL Asinkron: Secara drastis meningkatkan efisiensi pasca-pelatihan dengan memisahkan generasi dari pelatihan
- Algoritma RL Agen: Memungkinkan model untuk belajar dari interaksi jangka panjang yang kompleks dengan lebih efektif
Melalui inovasi ini, GLM-5 mencapai kinerja SOTA di antara model sumber terbuka, dengan hasil yang sangat kuat dalam tugas rekayasa perangkat lunak dunia nyata.