Un tabel foarte interesant de la deepseek v3.2 care compară numărul de token-uri de ieșire pe diferite benchmark-uri, versiunea DSV3.2 Speciale gândește mult mai mult decât orice alt model, DAR pentru că folosesc puțină atenție, costul de inferență va fi totuși acceptabil?
Mistral pare să fie pe cale să lanseze 2 modele noi: Ministral 3 și Mistral Large 3.
Din punct de vedere arhitectural, pare să fie:
> exact la fel ca llama2/3 pentru Ministral, care este foarte asemănătoare (chiar dacă adaugă SWA) cu prima lansare Mistral 7B de acum 2 ani.
> exact aceeași arhitectură ca DeepSeek V3 pentru cel mare (care pare să fie un MoE)
pentru ambele, folosesc și scalarea cu frânghie llama4 (în loc de fir), iar pentru cea mare par să implementeze decodare speculativă cu eagle
Link către PRS în thread
Frate, acesta este un articol de la Fair din 2024, Llama 2/3 a fost dezvoltat de Genai (nu același cluster, bază de cod,...), sunt transparenți în privința MFU/Throughput, spre deosebire de alte modele de antrenament de laborator la această scară, iar în articolul despre Llama 3 sunt cifre reale.