SWE-BENCH PRO 發布了 即使是最強大的 AI 編碼模型在測試變得更困難時也會掙扎。 在 SWE-BENCH Verified 上,他們的得分約為 70%。在更困難的 SWE-BENCH PRO 上,這一得分降至 25% 以下。 SWE-BENCH Verified 一直很混亂且過於簡單,模型在訓練期間已經看到了答案,問題並不反映真實的軟體工作。PRO 通過添加更接近現實的企業級長期項目來解決這個問題。 - 在公共集上:GPT-5 解決了 23.3%,Claude Opus 4.1 解決了 22.7%。 - 在商業集上:更難。Claude 得分 17.8%,GPT-5 得分 14.9%。 我們學到的三件事 1. 大模型遇到了思考的牆。GPT-5 和 Claude 可以編寫乾淨的代碼並使用工具,但他們經常邏輯錯誤。 2. 小模型更早失敗。他們在語法、格式或工具使用等基本問題上崩潰。 3. 每個模型都有自己的弱點。Sonnet 的上下文窗口用完了。Gemini 則混合了工具、語法和推理錯誤。 模型對 Python 和 Go 的處理更好。他們在 JavaScript 和 TypeScript 上仍然掙扎。 當前的 AI 還遠未成為可靠的軟體工程師。在簡單任務上的成功具有誤導性。現在真正的挑戰不是編寫代碼,而是思考問題。