Problém s lavicí SWE: Proč je náš závod LLM postaven na písku 1) Ve světě LLM jsou benchmarky srovnávacím přehledem. Společnosti předkládají čísla investorům, uživatelům a veřejnosti, jako by představovala "inteligenci". Ale nejmedializovanější benchmark ověřený SWE-bench se ukáže jako hluboce chybný. Pojďme rozbalit proč 👇
433