Het Probleem met SWE-bench: Waarom onze LLM-race op zand is gebouwd 1) In de wereld van LLM's zijn benchmarks de scoreborden. Bedrijven presenteren cijfers aan investeerders, gebruikers en het publiek alsof ze "intelligentie" vertegenwoordigen. Maar de meest gehypte benchmark, SWE-bench-geverifieerd, blijkt diep flawed te zijn. Laten we unpacken waarom 👇
504