另一个SOTA开源模型 👍 在355B参数(32B活跃MoE)下,它比我们见过的一些~1T模型要小一些。 据我所知,他们没有说明用于训练该模型的硬件,但他们使用了23T训练令牌。 如果我理解正确,阿里巴巴和腾讯都是这家位于北京的初创公司的投资者。
Z.ai
Z.ai8月11日 11:43
呈现 GLM-4.5 技术报告!👇 这项工作展示了我们如何通过独特的多阶段训练范式开发出在推理、编码和代理任务方面表现出色的模型。 关键创新包括通过自我蒸馏进行专家模型迭代以统一能力、用于动态问题解决的混合推理模式,以及基于难度的强化学习课程。
6.98K