另一個SOTA開源模型 👍 在355B參數(32B活躍MoE)下,它比我們見過的一些~1T模型要小一些。 據我所知,他們沒有說明用於訓練該模型的硬體,但他們使用了23T訓練令牌。 如果我理解正確,阿里巴巴和騰訊都是這家位於北京的初創公司的投資者。
Z.ai
Z.ai8月11日 11:43
呈現 GLM-4.5 技術報告!👇 這項工作展示了我們如何通過獨特的多階段訓練範式開發出在推理、編碼和代理任務方面表現出色的模型。 關鍵創新包括通過自我蒸餾進行專家模型迭代以統一能力、用於動態問題解決的混合推理模式,以及基於難度的強化學習課程。
6.98K