🚨 Nuovi modelli nell'Arena!
🐳 DeepSeek v3.1 Terminus e la sua variante di pensiero sono ora disponibili nell'Arena del Testo!
Questo aggiornamento si basa sui punti di forza della v3.1, con la nostra comunità che ha notato miglioramenti nella coerenza linguistica.
🚀 DeepSeek-V3.1 → DeepSeek-V3.1-Terminus
L'ultimo aggiornamento si basa sui punti di forza della V3.1 affrontando al contempo i feedback chiave degli utenti.
✨ Cosa è stato migliorato?
🌐 Coerenza linguistica: meno confusioni tra CN/EN e niente più caratteri casuali.
🤖 Aggiornamenti degli agenti: prestazioni più forti dell'Agente di Codice e dell'Agente di Ricerca.
1/2
🚨 Aggiornamento della Classifica dei 10 Migliori Modelli Open
Nuovi modelli open sono entrati nell'Arena del Testo, e le classifiche dei primi 10 fornitori sono cambiate per settembre!
🔹Qwen-3-235b-a22b-instruct di @Alibaba_Qwen detiene la corona al #1 🏆
🔹Longcat-flash-chat di @Meituan_LongCat fa un forte debutto al #5 😺
🔹I migliori modelli open sono ora ancora più vicini nel punteggio
Solo i primi 7 modelli open si classificano anche tra i primi 50 complessivi (proprietari e open).
Scopri ulteriori dettagli sui salitori, i movimenti e chi è uscito per settembre nel thread 🧵
In LMArena, la nostra missione è migliorare l'affidabilità dei sistemi AI.
Oggi, stiamo introducendo un prodotto di valutazione per analizzare le interazioni umane–AI su larga scala, trasformando la loro complessità in intuizioni da cui l'ecosistema può apprendere per rendere l'AI più efficace.
Il nostro servizio di Valutazione AI offre alle imprese, ai laboratori di modelli e agli sviluppatori valutazioni complete basate su feedback umani reali, mostrando come i modelli si comportano effettivamente nella pratica. 🧵👇