Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Další model 👍 SOTA s otevřeným zdrojovým kódem
Při parametrech 355B (32B aktivní MoE) je o něco menší než některé ~1T modely, které jsme viděli.
AFAIK neříkají, jaký hardware byl použit k trénování tohoto modelu, ale použili 23T tréninkové tokeny.
IIUC Alibaba i Tencent jsou investoři, ve kterých je startup v Pekingu.

11. 8. 11:43
Představujeme technickou zprávu GLM-4.5! 👇
Tato práce ukazuje, jak jsme vyvinuli modely, které vynikají v uvažování, kódování a agentních úlohách prostřednictvím jedinečného, vícestupňového trénovacího paradigmatu.
Mezi klíčové inovace patří iterace expertního modelu se samodestilací pro sjednocení schopností, hybridní režim uvažování pro dynamické řešení problémů a učební plán zpětnovazebního učení založený na obtížnosti.

6,8K
Top
Hodnocení
Oblíbené