熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
如今的Vibe Coding並沒有那麼美好。
想象中的Vibe Coding應該是,你下達一個任務,AI思考後詢問你幾個關鍵問題,然後開始長時間工作嘗試,此時你可以慢下心來,喝一杯氣泡蘇打水,看看短視頻,享受一下生活。
而現在是,你下達一個任務後,因為自己某一個地方沒有和他詳細說明,於是他經過了長達30分鐘的思考,生成了一個和你想要東西相差十萬八千里的東西,你憤怒的rollback,然後強忍怒火的在提示詞裡面和他說明了這部分你需要注意一下,應該怎麼做應該怎麼做,然後讓他繼續生成了30分鐘,結果他對你說的話只聽了一部分,然後繼續生成了一座草莓塔,同時因為你只補充了一部分的提示詞,導致在另外一個地方他繼續生成了很多草莓塔,此時你怒不可遏的指出他的錯誤,然後他說:我終於明白了,然後繼續生成粑粑。在長時間搏鬥後,你終於放棄開始自己尋找代碼問題,用了30分鐘看他生成的代碼越看越生氣,感覺就好像是實習生從網絡上東抄一點西抄一點拼湊成了一坨垃圾。最後你憤怒的對代碼進行重構。這種情況在越是複雜的項目項目中越明顯(比如涉及到多個微服務,前後端交互,中間件通訊等)。
於是你開始懷疑自己,為什麼別人可以用AI完成那麼多有趣的項目而自己讓AI寫的代碼是一坨粑粑。在多次掙扎後不敢心的查詢各種資料,希望可以找到和AI正確交互方式,然後自認為的找到後繼續和AI溝通,結果他生成的東西依然是大便一坨。時間白白浪費在這上面。
曾幾何時Claude Code作為Vibe Coding的王者開創了一篇先河,實際上是通過多次執行讓正確率變高來提升效果。假設AI生成的內容只有80%的正確率,那麼Claude Code通過多次自我測試,分析,反覆修改,讓正確率提升到99,就可以生成非常好的代碼。但是Claude Code學習Cursor一樣,各種降智,限制,導致原本不高的正確率急速下降,原本4次修正就可以達到99%的正確率,如果降智後正確率只有70%,如果同樣想要達到和之前4次的效果,那麼他要進行6次修正才可以。再加上Claude對使用量進行了限制,導致現在同樣時間內完全無法生成有效代碼,即使達到了限制也一樣不行。
而現在Codex為什麼被頻頻稱讚?最主要的原因是他喜歡問用戶的意見,他會問我的方案有問題嗎?可以這樣做嗎,會給你幾套方案說要如何改進,如何實現。這很好,因為AI本來就有錯誤,實際上你的回答是在幫他們填補正確率不足的問題,讓他一次生成可以達到接近99%的正確率。
Claude Code是一個很好的產品,但是他越來越差就在於正確率完全打不到人們想要的高度,AI本來就是一個大型正則匹配概率輸出器,決定他性能的關鍵就在於概率輸出是否能儘可能的接近1,工程上只不過都是用各種方案讓他多次修復接近1而已。但是降智+限制,讓他接近1越來越難。
反觀Codex,他知道純AI不可靠,於是把糾錯的任務交給了用戶來做,從一個Vibe Coding工具變成了一個AI助手,得到的效果反而很不錯。
這些AI工具也需要思考一下,在正確率不足的情況下,如何解決這些問題,Codex給的答案很不錯,但這是最優解嗎?也不見得,不過我個人認為,多Agent協作依然有效,既然每一個AI的都有自己的匹配方式,生成結果,多個Agent之間交叉驗證,並行思考才是最佳方程式。
不過這事情肯定無法在這些AI模型公司上出現,因為他們肯定是強制綁定自己的模型,因此,第三方才是做這個事情的最佳選擇。(沒話說了,想到啥說啥)
熱門
排行
收藏