SWE-bench 的问题:为什么我们的 LLM 竞赛建立在沙上 1) 在 LLM 的世界里,基准测试就是记分牌。 公司向投资者、用户和公众展示数字,仿佛它们代表着“智能”。 但最受追捧的基准测试 SWE-bench 经过验证后,结果却发现存在严重缺陷。 让我们来分析一下原因 👇
482