Problem z SWE-bench: Dlaczego nasza wyścig LLM oparty jest na piasku 1) W świecie LLM-ów, benchmarki są tablicą wyników. Firmy przedstawiają liczby inwestorom, użytkownikom i opinii publicznej, jakby reprezentowały "inteligencję." Jednak najbardziej reklamowany benchmark zweryfikowany przez SWE-bench okazuje się być głęboko wadliwy. Rozpakujmy, dlaczego 👇
497