Problemet med SWE-bench: Hvorfor vårt LLM-løp er bygget på sand 1) I LLM-verdenen er benchmarks resultattavlen. Selskaper presenterer tall for investorer, brukere og publikum som om de representerer «intelligens». Men den mest hypede referansen SWE-bench-verifisert viser seg å være dypt feil. La oss pakke ut hvorfor 👇
452