Ein weiteres SOTA Open-Source-Modell 👍 Mit 355B Parametern (32B aktive MoE) ist es etwas kleiner als einige der ~1T Modelle, die wir gesehen haben. Soweit ich weiß, sagen sie nicht, welche Hardware verwendet wurde, um dieses Modell zu trainieren, aber sie haben 23T Trainingstokens verwendet. Soweit ich verstehe, sind sowohl Alibaba als auch Tencent Investoren in einem Startup in Peking.
Z.ai
Z.ai11. Aug., 11:43
Präsentation des GLM-4.5 technischen Berichts!👇 Diese Arbeit zeigt, wie wir Modelle entwickelt haben, die in den Bereichen Schlussfolgern, Programmieren und agentischen Aufgaben durch ein einzigartiges, mehrstufiges Trainingsparadigma herausragend sind. Wichtige Innovationen umfassen die Iteration von Expertenmodellen mit Selbst-Distillation zur Vereinheitlichung der Fähigkeiten, einen hybriden Denkmodus für dynamisches Problemlösen und einen auf Schwierigkeiten basierenden Lehrplan für verstärkendes Lernen.
6,99K