Oggi il Vibe Coding non è così bello. Il Vibe Coding che immaginiamo dovrebbe essere questo: dai un compito, l'AI riflette e poi ti fa alcune domande chiave, quindi inizia a lavorare a lungo. In quel momento, puoi rilassarti, bere un po' di acqua frizzante, guardare brevi video e goderti la vita. Ma ora è così: dopo aver dato un compito, a causa di un dettaglio che non hai spiegato bene, l'AI riflette per 30 minuti e genera qualcosa che è completamente diverso da ciò che volevi. Tu, arrabbiato, fai un rollback e, trattenendo la rabbia, gli spieghi in che modo deve prestare attenzione a quella parte, cosa dovrebbe fare, e poi lo lasci continuare a generare per altri 30 minuti. Alla fine, lui ascolta solo una parte di ciò che hai detto e continua a generare una torta di fragole. Poiché hai solo integrato una parte del prompt, in un altro punto continua a generare molte torte di fragole. A questo punto, tu, furioso, gli fai notare l'errore e lui dice: "Finalmente ho capito!" e continua a generare merda. Dopo una lunga lotta, alla fine ti arrendi e inizi a cercare i problemi nel codice, passando 30 minuti a guardare il codice che genera, sempre più arrabbiato, come se un tirocinante avesse copiato qua e là da internet per assemblare un mucchio di spazzatura. Alla fine, arrabbiato, ricostruisci il codice. Questa situazione è ancora più evidente in progetti complessi (ad esempio, che coinvolgono più microservizi, interazioni front-end e back-end, comunicazioni middleware, ecc.). Inizi a dubitare di te stesso, perché gli altri possono completare così tanti progetti interessanti con l'AI mentre il codice che fai scrivere all'AI è una merda. Dopo vari tentativi, non osando cercare informazioni, speri di trovare il modo corretto di interagire con l'AI, e dopo aver pensato di averlo trovato, continui a comunicare con l'AI, ma il risultato è sempre una merda. Tempo sprecato. Un tempo, Claude Code, come re del Vibe Coding, ha aperto una nuova strada, in realtà migliorando l'efficacia attraverso molteplici esecuzioni per aumentare il tasso di correttezza. Supponiamo che il contenuto generato dall'AI abbia solo un tasso di correttezza dell'80%, allora Claude Code, attraverso test, analisi e modifiche ripetute, porta il tasso di correttezza al 99%, generando così codice di alta qualità. Ma Claude Code, come Cursor, ha subito vari abbassamenti di intelligenza e limitazioni, portando a una rapida diminuzione del tasso di correttezza, che inizialmente richiedeva 4 correzioni per raggiungere il 99% di correttezza; se dopo l'abbassamento il tasso di correttezza è solo del 70%, per ottenere lo stesso risultato di prima, ora deve effettuare 6 correzioni. Inoltre, Claude ha limitato l'uso, rendendo impossibile generare codice efficace nello stesso tempo, anche se si raggiunge il limite, non funziona comunque. E ora, perché Codex è frequentemente lodato? La ragione principale è che ama chiedere il parere degli utenti, chiederà se il mio piano ha problemi? Si può fare in questo modo? Ti darà diverse opzioni su come migliorare e implementare. Questo è ottimo, perché l'AI ha sempre errori, e in realtà le tue risposte aiutano a colmare le lacune nel tasso di correttezza, permettendo di generare contenuti con un tasso di correttezza vicino al 99% in un colpo solo. Claude Code è un ottimo prodotto, ma sta diventando sempre peggiore poiché il tasso di correttezza non raggiunge l'altezza desiderata. L'AI è fondamentalmente un grande generatore di output probabilistici basato su corrispondenze regolari, e la chiave per le sue prestazioni è se l'output probabilistico può avvicinarsi il più possibile a 1. In ingegneria, si tratta solo di utilizzare vari metodi per farlo avvicinare a 1. Ma l'abbassamento dell'intelligenza e le limitazioni rendono sempre più difficile avvicinarsi a 1. Al contrario, Codex sa che l'AI pura non è affidabile, quindi affida il compito di correzione agli utenti, trasformandosi da uno strumento di Vibe Coding in un assistente AI, ottenendo risultati piuttosto buoni. Questi strumenti AI devono anche riflettere su come risolvere questi problemi in caso di tasso di correttezza insufficiente. La risposta di Codex è molto buona, ma è la soluzione ottimale? Non necessariamente, ma personalmente credo che la collaborazione tra più agenti sia ancora efficace. Poiché ogni AI ha il proprio modo di corrispondere e generare risultati, la verifica incrociata tra più agenti e il pensiero parallelo è la formula migliore. Tuttavia, questa situazione non può sicuramente verificarsi in queste aziende di modelli AI, poiché sono costrette a vincolare i propri modelli, quindi i terzi sono la scelta migliore per fare questo.