Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Ridiculous, że OpenAI twierdziło, że osiągnęło 74,9% w SWE-Bench, tylko po to, aby udowodnić, że są lepsi od Opus 4.1, który miał 74,5%... Uruchamiając to na 477 problemach zamiast pełnych 500. Ich karta systemowa również mówi tylko 74%.

Źródło:

I tak, wiem, że zawsze raportowali na temat mianownika 477, ale to NIE jest „zweryfikowane przez SWE-Bench”, to zupełnie inna metryka, to „podzbiór OpenAI zweryfikowany przez SWE Bench” i tej liczby nie można porównywać.

23,27K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi