Das Problem mit SWE-bench: Warum unser LLM-Wettlauf auf Sand gebaut ist 1) In der Welt der LLMs sind Benchmarks die Punktetafeln. Unternehmen präsentieren Zahlen an Investoren, Nutzer und die Öffentlichkeit, als ob sie "Intelligenz" repräsentieren. Aber der am meisten gehypte Benchmark, der SWE-bench-überprüft ist, stellt sich als zutiefst fehlerhaft heraus. Lass uns unpacken, warum 👇
461