Kimi K2.5 teknikrapport har precis släppts! Snabba träffar: - Gemensam text–vision-träning: förtränad med 15T vision-text-tokens, zero-vision SFT (endast text) för att aktivera visuellt resonemang - Agent Swarm + PARL: dynamiskt orkestrerade parallella underagenter, upp till 4,5 × lägre latens, 78,4 % på BrowseComp - MoonViT-3D: en enhetlig bild–video-kodare med 4× temporär komprimering, vilket möjliggör 4× längre videor i samma sammanhang - Växla: token-effektiv RL, 25–30 % färre tokens utan noggrannhetsminskning Här är vårt arbete mot skalbar, verklig agentisk intelligens. Fler detaljer finns i rapporten 👉