热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
如今的Vibe Coding并没有那么美好。
想象中的Vibe Coding应该是,你下达一个任务,AI思考后询问你几个关键问题,然后开始长时间工作尝试,此时你可以慢下心来,喝一杯气泡苏打水,看看短视频,享受一下生活。
而现在是,你下达一个任务后,因为自己某一个地方没有和他详细说明,于是他经过了长达30分钟的思考,生成了一个和你想要东西相差十万八千里的东西,你愤怒的rollback,然后强忍怒火的在提示词里面和他说明了这部分你需要注意一下,应该怎么做应该怎么做,然后让他继续生成了30分钟,结果他对你说的话只听了一部分,然后继续生成了一座草莓塔,同时因为你只补充了一部分的提示词,导致在另外一个地方他继续生成了很多草莓塔,此时你怒不可遏的指出他的错误,然后他说:我终于明白了,然后继续生成粑粑。在长时间搏斗后,你终于放弃开始自己寻找代码问题,用了30分钟看他生成的代码越看越生气,感觉就好像是实习生从网络上东抄一点西抄一点拼凑成了一坨垃圾。最后你愤怒的对代码进行重构。这种情况在越是复杂的项目项目中越明显(比如涉及到多个微服务,前后端交互,中间件通讯等)。
于是你开始怀疑自己,为什么别人可以用AI完成那么多有趣的项目而自己让AI写的代码是一坨粑粑。在多次挣扎后不敢心的查询各种资料,希望可以找到和AI正确交互方式,然后自认为的找到后继续和AI沟通,结果他生成的东西依然是大便一坨。时间白白浪费在这上面。
曾几何时Claude Code作为Vibe Coding的王者开创了一篇先河,实际上是通过多次执行让正确率变高来提升效果。假设AI生成的内容只有80%的正确率,那么Claude Code通过多次自我测试,分析,反复修改,让正确率提升到99,就可以生成非常好的代码。但是Claude Code学习Cursor一样,各种降智,限制,导致原本不高的正确率急速下降,原本4次修正就可以达到99%的正确率,如果降智后正确率只有70%,如果同样想要达到和之前4次的效果,那么他要进行6次修正才可以。再加上Claude对使用量进行了限制,导致现在同样时间内完全无法生成有效代码,即使达到了限制也一样不行。
而现在Codex为什么被频频称赞?最主要的原因是他喜欢问用户的意见,他会问我的方案有问题吗?可以这样做吗,会给你几套方案说要如何改进,如何实现。这很好,因为AI本来就有错误,实际上你的回答是在帮他们填补正确率不足的问题,让他一次生成可以达到接近99%的正确率。
Claude Code是一个很好的产品,但是他越来越差就在于正确率完全打不到人们想要的高度,AI本来就是一个大型正则匹配概率输出器,决定他性能的关键就在于概率输出是否能尽可能的接近1,工程上只不过都是用各种方案让他多次修复接近1而已。但是降智+限制,让他接近1越来越难。
反观Codex,他知道纯AI不可靠,于是把纠错的任务交给了用户来做,从一个Vibe Coding工具变成了一个AI助手,得到的效果反而很不错。
这些AI工具也需要思考一下,在正确率不足的情况下,如何解决这些问题,Codex给的答案很不错,但这是最优解吗?也不见得,不过我个人认为,多Agent协作依然有效,既然每一个AI的都有自己的匹配方式,生成结果,多个Agent之间交叉验证,并行思考才是最佳方程式。
不过这事情肯定无法在这些AI模型公司上出现,因为他们肯定是强制绑定自己的模型,因此,第三方才是做这个事情的最佳选择。(没话说了,想到啥说啥)
热门
排行
收藏