Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ridiculous, że OpenAI twierdziło, że osiągnęło 74,9% w SWE-Bench, tylko po to, aby udowodnić, że są lepsi od Opus 4.1, który miał 74,5%...
Uruchamiając to na 477 problemach zamiast pełnych 500.
Ich karta systemowa również mówi tylko 74%.

Źródło:
I tak, wiem, że zawsze raportowali na temat mianownika 477, ale to NIE jest „zweryfikowane przez SWE-Bench”, to zupełnie inna metryka, to „podzbiór OpenAI zweryfikowany przez SWE Bench” i tej liczby nie można porównywać.
23,27K
Najlepsze
Ranking
Ulubione