Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 erreicht eine Genauigkeit von 94,6 % bei AIME 2025, was auf nahezu menschliches mathematisches Denken hindeutet.
Fragen Sie es jedoch, Ihre Datenbank abzufragen, sinken die Erfolgsquoten auf die Teenagerjahre.
Die Spider 2.0-Benchmarks zeigen eine klaffende Lücke in den KI-Fähigkeiten. Spider 2.0 ist ein umfassender Text-zu-SQL-Benchmark, der die Fähigkeit von KI-Modellen testet, genaue SQL-Abfragen aus natürlichen Sprachfragen über reale Datenbanken zu generieren.
Während große Sprachmodelle die Wissensarbeit in Mathematik, Programmierung und Argumentation erobert haben, bleibt Text-zu-SQL hartnäckig schwierig.
Die drei Spider 2.0-Benchmarks testen die Abfrage von realen Datenbanken in verschiedenen Umgebungen. Spider 2.0-Snow verwendet Snowflake-Datenbanken mit 547 Testbeispielen und erreicht eine Höchstgenauigkeit von 59,05 %.
Spider 2.0-Lite umfasst BigQuery, Snowflake und SQLite mit weiteren 547 Beispielen und erreicht nur 37,84 %. Spider 2.0-DBT testet die Codegenerierung gegen DuckDB mit 68 Beispielen und erreicht maximal 39,71 %.
Diese Leistungsdifferenz ist nicht auf mangelnde Bemühungen zurückzuführen. Seit November 2024 haben 56 Einreichungen von 12 Modellfamilien an diesen Benchmarks teilgenommen.
Claude, OpenAI, DeepSeek und andere haben alle ihre Modelle gegen diese Tests getestet. Der Fortschritt war stetig, von etwa 2 % auf etwa 60 % in den letzten neun Monaten.
Das Rätsel vertieft sich, wenn man die Einschränkungen von SQL betrachtet. SQL hat einen begrenzten Wortschatz im Vergleich zu Englisch, das 600.000 Wörter hat, oder Programmiersprachen, die viel breitere Syntax und Bibliotheken haben, die man kennen muss. Außerdem gibt es jede Menge SQL, auf dem man trainieren kann.
Wenn überhaupt, sollte dies einfacher sein als die offenen Denkaufgaben, in denen Modelle jetzt glänzen.
Doch selbst perfekte SQL-Generierung würde die echte geschäftliche Herausforderung nicht lösen. Jedes Unternehmen definiert "Umsatz" anders.
Das Marketing misst die Kundenakquisitionskosten anhand der Kampagnenausgaben, der Vertrieb berechnet sie unter Verwendung der Kosten für Account Executives, und die Finanzen beziehen die vollbelasteten Mitarbeiterkosten ein. Diese semantischen Unterschiede schaffen Verwirrung, die technische Genauigkeit nicht lösen kann.
Die Ergebnisse von Spider 2.0 weisen auf eine grundlegende Wahrheit über Datenarbeit hin. Technische Kompetenz in SQL-Syntax ist nur der Einstieg.
Die echte Herausforderung liegt im Geschäftskontext. Zu verstehen, was die Daten bedeuten, wie verschiedene Teams Kennzahlen definieren und wann Randfälle wichtig sind. Wie ich in Semantic Cultivators geschrieben habe, erfordert die Brücke zwischen Rohdaten und geschäftlicher Bedeutung menschliches Urteilsvermögen, das die aktuelle KI nicht replizieren kann.

3,96K
Top
Ranking
Favoriten