一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

SWE-BENCH PRO 發布了即使是最強大的 AI 編碼模型在測試變得更困難時也會掙扎。在 SWE-BENCH Verified 上，他們的得分約為 70%。在更困難的 SWE-BENCH PRO 上，這一得分降至 25% 以下。 SWE-BENCH Verified 一直很混亂且過於簡單，模型在訓練期間已經看到了答案，問題並不反映真實的軟體工作。PRO 通過添加更接近現實的企業級長期項目來解決這個問題。 - 在公共集上：GPT-5 解決了 23.3%，Claude Opus 4.1 解決了 22.7%。 - 在商業集上：更難。Claude 得分 17.8%，GPT-5 得分 14.9%。我們學到的三件事 1. 大模型遇到了思考的牆。GPT-5 和 Claude 可以編寫乾淨的代碼並使用工具，但他們經常邏輯錯誤。 2. 小模型更早失敗。他們在語法、格式或工具使用等基本問題上崩潰。 3. 每個模型都有自己的弱點。Sonnet 的上下文窗口用完了。Gemini 則混合了工具、語法和推理錯誤。模型對 Python 和 Go 的處理更好。他們在 JavaScript 和 TypeScript 上仍然掙扎。當前的 AI 還遠未成為可靠的軟體工程師。在簡單任務上的成功具有誤導性。現在真正的挑戰不是編寫代碼，而是思考問題。