Ridicule qu'OpenAI ait revendiqué 74,9 % sur SWE-Bench juste pour prouver qu'ils étaient au-dessus des 74,5 % d'Opus 4.1... En le faisant sur 477 problèmes au lieu des 500 complets. Leur carte système indique également seulement 74 %.
Source:
Et oui, je sais qu'ils ont toujours rapporté sur le dénominateur 477, mais ce n'est PAS "vérifié par SWE-Bench", c'est une métrique complètement différente, c'est "le sous-ensemble d'OpenAI vérifié par SWE Bench" et ce nombre ne peut pas être comparé.
23,3K