Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ridicule qu'OpenAI ait revendiqué 74,9 % sur SWE-Bench juste pour prouver qu'ils étaient au-dessus des 74,5 % d'Opus 4.1...
En le faisant sur 477 problèmes au lieu des 500 complets.
Leur carte système indique également seulement 74 %.

Source:
Et oui, je sais qu'ils ont toujours rapporté sur le dénominateur 477, mais ce n'est PAS "vérifié par SWE-Bench", c'est une métrique complètement différente, c'est "le sous-ensemble d'OpenAI vérifié par SWE Bench" et ce nombre ne peut pas être comparé.
23,3K
Meilleurs
Classement
Favoris