GPT-5 è stato lanciato ieri. 94,6% su AIME 2025. 74,9% su SWE-bench. Man mano che ci avviciniamo ai limiti superiori di questi benchmark, essi svaniscono. Ciò che rende GPT-5 e la prossima generazione di modelli rivoluzionari non è la loro conoscenza. È sapere come agire. Per GPT-5 questo avviene a due livelli. Prima, decidere quale modello utilizzare. Ma secondo, e più importante, attraverso la chiamata agli strumenti. Abbiamo vissuto in un'era in cui i LLM hanno padroneggiato il recupero e la riassemblaggio delle conoscenze. La ricerca per i consumatori e la codifica, le applicazioni killer iniziali, sono fondamentalmente sfide di recupero delle conoscenze. Entrambi organizzano le informazioni esistenti in modi nuovi. Abbiamo scalato quelle colline e, di conseguenza, la competizione è più intensa che mai. I modelli di Anthropic, OpenAI e Google stanno convergendo su capacità simili. I modelli cinesi e le alternative open source continuano a spingersi sempre più vicino allo stato dell'arte. Tutti possono recuperare informazioni. Tutti possono generare testo. Il nuovo asse della competizione? La chiamata agli strumenti. La chiamata agli strumenti trasforma i LLM da consulenti ad attori. Compensa due debolezze critiche dei modelli puramente linguistici che non possono essere superate. Prima, l'orchestrazione del flusso di lavoro. I modelli eccellono nelle risposte a colpo singolo ma faticano con processi multi-step e con stato. Gli strumenti consentono loro di gestire flussi di lavoro lunghi, monitorando i progressi, gestendo gli errori, mantenendo il contesto attraverso dozzine di operazioni. Secondo, l'integrazione del sistema. I LLM vivono in un mondo solo testuale. Gli strumenti consentono loro di interfacciarsi in modo prevedibile con sistemi esterni come database, API e software aziendale, trasformando il linguaggio naturale in azioni eseguibili. Nell'ultimo mese ho costruito 58 strumenti AI diversi. Processori di email. Integratori CRM. Aggiornatori di Notion. Assistenti alla ricerca. Ogni strumento estende le capacità del modello in un nuovo dominio. La capacità più importante per l'AI è selezionare rapidamente e correttamente lo strumento giusto. Ogni passo errato uccide l'intero flusso di lavoro. Quando dico “leggi questa email da Y Combinator e trova tutte le startup che non sono nel CRM”, i moderni LLM eseguono una sequenza complessa. Un comando in inglese sostituisce un intero flusso di lavoro. E questo è solo un semplice esempio. Ancora meglio, il modello, correttamente impostato con gli strumenti giusti, può verificare il proprio lavoro che i compiti sono stati completati in tempo. Questo ciclo di auto-verifica crea affidabilità nei flussi di lavoro che è difficile da raggiungere altrimenti. Moltiplica questo per centinaia di dipendenti. Migliaia di flussi di lavoro. I guadagni di produttività si accumulano in modo esponenziale. I vincitori nel futuro mondo dell'AI saranno quelli che sono più sofisticati nell'orchestrare strumenti e instradare le giuste query. Ogni volta. Una volta che quei flussi di lavoro sono prevedibili, è allora che tutti noi diventeremo manager di agenti.
3,22K