Model 👍 sumber terbuka SOTA lainnya Pada parameter 355B (MoE aktif 32B) itu sedikit lebih kecil dari beberapa model ~1T yang telah kita lihat. AFAIK mereka tidak mengatakan perangkat keras apa yang digunakan untuk melatih model ini, tetapi mereka menggunakan token pelatihan 23T. IIUC baik Alibaba dan Tencent adalah investor di mana merupakan startup di Beijing.
Z.ai
Z.ai11 Agu, 11.43
Mempresentasikan laporan teknis GLM-4.5! 👇 Pekerjaan ini menunjukkan bagaimana kami mengembangkan model yang unggul dalam penalaran, pengkodean, dan tugas agen melalui paradigma pelatihan multi-tahap yang unik. Inovasi utama termasuk iterasi model ahli dengan distilasi mandiri untuk menyatukan kemampuan, mode penalaran hibrida untuk pemecahan masalah dinamis, dan kurikulum pembelajaran penguatan berbasis kesulitan.
6,88K