GPT-5 raggiunge il 94,6% di accuratezza su AIME 2025, suggerendo un ragionamento matematico quasi umano. Tuttavia, chiedigli di interrogare il tuo database e i tassi di successo crollano negli adolescenti. I benchmark Spider 2.0 rivelano un divario enorme nelle capacità dell'IA. Spider 2.0 è un benchmark completo text-to-SQL che testa la capacità dei modelli di IA di generare query SQL accurate da domande in linguaggio naturale su database reali. Mentre i grandi modelli di linguaggio hanno conquistato il lavoro di conoscenza in matematica, programmazione e ragionamento, il text-to-SQL rimane ostinatamente difficile. I tre benchmark Spider 2.0 testano l'interrogazione di database reali in diversi ambienti. Spider 2.0-Snow utilizza database Snowflake con 547 esempi di test, raggiungendo un picco del 59,05% di accuratezza. Spider 2.0-Lite copre BigQuery, Snowflake e SQLite con altri 547 esempi, raggiungendo solo il 37,84%. Spider 2.0-DBT testa la generazione di codice contro DuckDB con 68 esempi, arrivando a un massimo del 39,71%. Questo divario di prestazioni non è dovuto alla mancanza di tentativi. Da novembre 2024, 56 sottomissioni di 12 famiglie di modelli hanno gareggiato su questi benchmark. Claude, OpenAI, DeepSeek e altri hanno tutti messo alla prova i loro modelli contro questi test. I progressi sono stati costanti, passando da circa il 2% a circa il 60% negli ultimi nove mesi. Il puzzle si approfondisce quando consideri i vincoli di SQL. SQL ha un vocabolario limitato rispetto all'inglese, che ha 600.000 parole, o ai linguaggi di programmazione che hanno sintassi e librerie molto più ampie da conoscere. Inoltre, c'è molta SQL là fuori su cui addestrarsi. Se c'è qualcosa, questo dovrebbe essere più facile rispetto ai compiti di ragionamento aperto in cui i modelli ora eccellono. Eppure anche una generazione SQL perfetta non risolverebbe la vera sfida aziendale. Ogni azienda definisce "entrate" in modo diverso. Il marketing misura il costo di acquisizione dei clienti in base alla spesa della campagna, le vendite lo calcolano utilizzando i costi degli account executive e la finanza include le spese per i dipendenti completamente caricati. Queste differenze semantiche creano confusione che l'accuratezza tecnica non può risolvere. I risultati di Spider 2.0 indicano una verità fondamentale sul lavoro con i dati. La competenza tecnica nella sintassi SQL è solo il punto di partenza. La vera sfida risiede nel contesto aziendale. Comprendere cosa significano i dati, come i diversi team definiscono le metriche e quando i casi limite sono importanti. Come ho scritto in Semantic Cultivators, il ponte tra i dati grezzi e il significato aziendale richiede un giudizio umano che l'attuale IA non può replicare.
7,64K