一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

如今的Vibe Coding并没有那么美好。想象中的Vibe Coding应该是，你下达一个任务，AI思考后询问你几个关键问题，然后开始长时间工作尝试，此时你可以慢下心来，喝一杯气泡苏打水，看看短视频，享受一下生活。而现在是，你下达一个任务后，因为自己某一个地方没有和他详细说明，于是他经过了长达30分钟的思考，生成了一个和你想要东西相差十万八千里的东西，你愤怒的rollback，然后强忍怒火的在提示词里面和他说明了这部分你需要注意一下，应该怎么做应该怎么做，然后让他继续生成了30分钟，结果他对你说的话只听了一部分，然后继续生成了一座草莓塔，同时因为你只补充了一部分的提示词，导致在另外一个地方他继续生成了很多草莓塔，此时你怒不可遏的指出他的错误，然后他说：我终于明白了，然后继续生成粑粑。在长时间搏斗后，你终于放弃开始自己寻找代码问题，用了30分钟看他生成的代码越看越生气，感觉就好像是实习生从网络上东抄一点西抄一点拼凑成了一坨垃圾。最后你愤怒的对代码进行重构。这种情况在越是复杂的项目项目中越明显（比如涉及到多个微服务，前后端交互，中间件通讯等）。于是你开始怀疑自己，为什么别人可以用AI完成那么多有趣的项目而自己让AI写的代码是一坨粑粑。在多次挣扎后不敢心的查询各种资料，希望可以找到和AI正确交互方式，然后自认为的找到后继续和AI沟通，结果他生成的东西依然是大便一坨。时间白白浪费在这上面。曾几何时Claude Code作为Vibe Coding的王者开创了一篇先河，实际上是通过多次执行让正确率变高来提升效果。假设AI生成的内容只有80%的正确率，那么Claude Code通过多次自我测试，分析，反复修改，让正确率提升到99，就可以生成非常好的代码。但是Claude Code学习Cursor一样，各种降智，限制，导致原本不高的正确率急速下降，原本4次修正就可以达到99%的正确率，如果降智后正确率只有70%，如果同样想要达到和之前4次的效果，那么他要进行6次修正才可以。再加上Claude对使用量进行了限制，导致现在同样时间内完全无法生成有效代码，即使达到了限制也一样不行。而现在Codex为什么被频频称赞？最主要的原因是他喜欢问用户的意见，他会问我的方案有问题吗？可以这样做吗，会给你几套方案说要如何改进，如何实现。这很好，因为AI本来就有错误，实际上你的回答是在帮他们填补正确率不足的问题，让他一次生成可以达到接近99%的正确率。 Claude Code是一个很好的产品，但是他越来越差就在于正确率完全打不到人们想要的高度，AI本来就是一个大型正则匹配概率输出器，决定他性能的关键就在于概率输出是否能尽可能的接近1，工程上只不过都是用各种方案让他多次修复接近1而已。但是降智+限制，让他接近1越来越难。反观Codex，他知道纯AI不可靠，于是把纠错的任务交给了用户来做，从一个Vibe Coding工具变成了一个AI助手，得到的效果反而很不错。这些AI工具也需要思考一下，在正确率不足的情况下，如何解决这些问题，Codex给的答案很不错，但这是最优解吗？也不见得，不过我个人认为，多Agent协作依然有效，既然每一个AI的都有自己的匹配方式，生成结果，多个Agent之间交叉验证，并行思考才是最佳方程式。不过这事情肯定无法在这些AI模型公司上出现，因为他们肯定是强制绑定自己的模型，因此，第三方才是做这个事情的最佳选择。（没话说了，想到啥说啥）