Problemet med SWE-bänk: Varför vår LLM-tävling är byggd på sand 1) I LLM-världen är riktmärken resultattavlan. Företag presenterar siffror för investerare, användare och allmänheten som om de representerar "intelligens". Men det mest hypade benchmarket som SWE-bench-verifierat visar sig vara djupt bristfälligt. Låt oss reda ut varför 👇
680