GPT-5 oppnår 94.6 % nøyaktighet på AIME 2025, noe som tyder på nesten menneskelig matematisk resonnement. Men be den om å spørre databasen din, og suksessraten stuper til tenåringene. Spider 2.0-referansene avslører et gapende gap i AI-evner. Spider 2.0er en omfattende tekst-til-SQL-referanse som tester AI-modellers evne til å generere nøyaktige SQL-spørringer fra naturlige språkspørsmål på tvers av virkelige databaser. Mens store språkmodeller har erobret kunnskapsarbeid innen matematikk, koding og resonnement, er tekst-til-SQL fortsatt vanskelig. De tre Spider 2.0-referansene tester databasespørringer i den virkelige verden på tvers av forskjellige miljøer. Spider 2.0-Snow bruker Snowflake-databaser med 547 testeksempler, og topper seg med 59,05 % nøyaktighet. Spider 2.0-Lite spenner over BigQuery, Snowflake og SQLite med ytterligere 547 eksempler, og når bare 37,84 %. Spider 2.0-DBT tester kodegenerering mot DuckDB med 68 eksempler, og topper på 39.71 %. Dette ytelsesgapet er ikke på grunn av mangel på forsøk. Siden november 2024 har 56 bidrag fra 12 modellfamilier konkurrert på disse referansene. Claude, OpenAI, DeepSeek og andre har alle presset modellene sine mot disse testene. Fremgangen har vært jevn, fra omtrent 2 % til rundt 60 %, de siste ni månedene. Puslespillet blir dypere når du vurderer SQLs begrensninger. SQL har et begrenset ordforråd sammenlignet med engelsk, som har 600 000 ord, eller programmeringsspråk som har mye bredere syntakser og biblioteker å kjenne til. I tillegg er det nok av SQL der ute å trene på. Om noe, burde dette være enklere enn de åpne resonneringsoppgavene der modeller nå utmerker seg. Men selv perfekt SQL-generering ville ikke løse den virkelige forretningsutfordringen. Hvert selskap definerer "inntekt" forskjellig. Marketing måler kundeanskaffelseskostnader etter kampanjeutgifter, salg beregner det ved hjelp av kontolederkostnader, og økonomi inkluderer fulllastede ansattutgifter. Disse semantiske forskjellene skaper forvirring som teknisk nøyaktighet ikke kan løse. Spider 2.0-resultatene peker på en grunnleggende sannhet om dataarbeid. Tekniske ferdigheter i SQL-syntaks er bare inngangspunktet. Den virkelige utfordringen ligger i forretningssammenheng. Forstå hva dataene betyr, hvordan ulike team definerer beregninger, og når kanttilfeller betyr noe. Som jeg skrev om i Semantic Cultivators, krever broen mellom rådata og forretningsmening menneskelig dømmekraft som dagens AI ikke kan replikere.
3,79K