介紹 GLM-5 技術報告! 在 GLM-5 發佈後,我們將揭開其建構過程的面紗。主要創新包括: - DSA 採用:顯著降低訓練和推理成本,同時保持長上下文的保真度 - 非同步強化學習基礎設施:通過將生成與訓練解耦,大幅提高後訓練效率 - 代理強化學習算法:使模型能更有效地從複雜的長期互動中學習 通過這些創新,GLM-5 在開源模型中實現了 SOTA 性能,特別是在現實世界的軟體工程任務中表現出色。