GPT-5 behaalt 94,6% nauwkeurigheid op AIME 2025, wat wijst op bijna menselijke wiskundige redenering. Maar vraag het om je database te doorzoeken, en de slagingspercentages kelderen naar de tien procent. De Spider 2.0 benchmarks onthullen een enorme kloof in AI-capaciteiten. Spider 2.0 is een uitgebreide text-to-SQL benchmark die de mogelijkheid van AI-modellen test om nauwkeurige SQL-query's te genereren vanuit natuurlijke taalvragen over echte databases. Hoewel grote taalmodellen kenniswerk in wiskunde, codering en redenering hebben veroverd, blijft text-to-SQL hardnekkig moeilijk. De drie Spider 2.0 benchmarks testen het doorzoeken van echte databases in verschillende omgevingen. Spider 2.0-Snow gebruikt Snowflake-databases met 547 testvoorbeelden, met een piek van 59,05% nauwkeurigheid. Spider 2.0-Lite beslaat BigQuery, Snowflake en SQLite met nog eens 547 voorbeelden, en bereikt slechts 37,84%. Spider 2.0-DBT test codegeneratie tegen DuckDB met 68 voorbeelden, met een maximum van 39,71%. Deze prestatiekloof is niet te wijten aan een gebrek aan inspanning. Sinds november 2024 hebben 56 inzendingen van 12 modelfamilies op deze benchmarks gestreden. Claude, OpenAI, DeepSeek en anderen hebben allemaal hun modellen tegen deze tests getest. De vooruitgang is gestaag geweest, van ongeveer 2% naar ongeveer 60% in de afgelopen negen maanden. De puzzel verdiept zich als je de beperkingen van SQL in overweging neemt. SQL heeft een beperkte woordenschat vergeleken met het Engels, dat 600.000 woorden heeft, of programmeertalen die veel bredere syntaxes en bibliotheken hebben om te kennen. Bovendien is er genoeg SQL beschikbaar om op te trainen. Als er iets is, zou dit gemakkelijker moeten zijn dan de open-eind redeneringstaken waar modellen nu in uitblinken. Toch zou zelfs perfecte SQL-generatie de echte zakelijke uitdaging niet oplossen. Elk bedrijf definieert "omzet" anders. Marketing meet de kosten van klantacquisitie op basis van campagne-uitgaven, sales berekent het met de kosten van account executives, en financiën omvatten volledig geladen personeelskosten. Deze semantische verschillen creëren verwarring die technische nauwkeurigheid niet kan oplossen. De Spider 2.0-resultaten wijzen op een fundamentele waarheid over dataverwerking. Technische bekwaamheid in SQL-syntax is slechts het toegangspunt. De echte uitdaging ligt in de zakelijke context. Begrijpen wat de data betekent, hoe verschillende teams metrics definiëren, en wanneer randgevallen belangrijk zijn. Zoals ik schreef in Semantic Cultivators, vereist de brug tussen ruwe data en zakelijke betekenis menselijke beoordeling die de huidige AI niet kan repliceren.
7,66K