一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

如今的Vibe Coding並沒有那麼美好。想象中的Vibe Coding應該是，你下達一個任務，AI思考後詢問你幾個關鍵問題，然後開始長時間工作嘗試，此時你可以慢下心來，喝一杯氣泡蘇打水，看看短視頻，享受一下生活。而現在是，你下達一個任務後，因為自己某一個地方沒有和他詳細說明，於是他經過了長達30分鐘的思考，生成了一個和你想要東西相差十萬八千里的東西，你憤怒的rollback，然後強忍怒火的在提示詞裡面和他說明了這部分你需要注意一下，應該怎麼做應該怎麼做，然後讓他繼續生成了30分鐘，結果他對你說的話只聽了一部分，然後繼續生成了一座草莓塔，同時因為你只補充了一部分的提示詞，導致在另外一個地方他繼續生成了很多草莓塔，此時你怒不可遏的指出他的錯誤，然後他說：我終於明白了，然後繼續生成粑粑。在長時間搏鬥後，你終於放棄開始自己尋找代碼問題，用了30分鐘看他生成的代碼越看越生氣，感覺就好像是實習生從網絡上東抄一點西抄一點拼湊成了一坨垃圾。最後你憤怒的對代碼進行重構。這種情況在越是複雜的項目項目中越明顯（比如涉及到多個微服務，前後端交互，中間件通訊等）。於是你開始懷疑自己，為什麼別人可以用AI完成那麼多有趣的項目而自己讓AI寫的代碼是一坨粑粑。在多次掙扎後不敢心的查詢各種資料，希望可以找到和AI正確交互方式，然後自認為的找到後繼續和AI溝通，結果他生成的東西依然是大便一坨。時間白白浪費在這上面。曾幾何時Claude Code作為Vibe Coding的王者開創了一篇先河，實際上是通過多次執行讓正確率變高來提升效果。假設AI生成的內容只有80%的正確率，那麼Claude Code通過多次自我測試，分析，反覆修改，讓正確率提升到99，就可以生成非常好的代碼。但是Claude Code學習Cursor一樣，各種降智，限制，導致原本不高的正確率急速下降，原本4次修正就可以達到99%的正確率，如果降智後正確率只有70%，如果同樣想要達到和之前4次的效果，那麼他要進行6次修正才可以。再加上Claude對使用量進行了限制，導致現在同樣時間內完全無法生成有效代碼，即使達到了限制也一樣不行。而現在Codex為什麼被頻頻稱讚？最主要的原因是他喜歡問用戶的意見，他會問我的方案有問題嗎？可以這樣做嗎，會給你幾套方案說要如何改進，如何實現。這很好，因為AI本來就有錯誤，實際上你的回答是在幫他們填補正確率不足的問題，讓他一次生成可以達到接近99%的正確率。 Claude Code是一個很好的產品，但是他越來越差就在於正確率完全打不到人們想要的高度，AI本來就是一個大型正則匹配概率輸出器，決定他性能的關鍵就在於概率輸出是否能儘可能的接近1，工程上只不過都是用各種方案讓他多次修復接近1而已。但是降智+限制，讓他接近1越來越難。反觀Codex，他知道純AI不可靠，於是把糾錯的任務交給了用戶來做，從一個Vibe Coding工具變成了一個AI助手，得到的效果反而很不錯。這些AI工具也需要思考一下，在正確率不足的情況下，如何解決這些問題，Codex給的答案很不錯，但這是最優解嗎？也不見得，不過我個人認為，多Agent協作依然有效，既然每一個AI的都有自己的匹配方式，生成結果，多個Agent之間交叉驗證，並行思考才是最佳方程式。不過這事情肯定無法在這些AI模型公司上出現，因為他們肯定是強制綁定自己的模型，因此，第三方才是做這個事情的最佳選擇。（沒話說了，想到啥說啥）