GPT-5 osiąga 94,6% dokładności w AIME 2025, co sugeruje niemal ludzkie rozumowanie matematyczne. Jednak gdy poprosisz go o zapytanie do twojej bazy danych, wskaźniki sukcesu spadają do nastolatków. Benchmarki Spider 2.0 ujawniają ogromną lukę w możliwościach AI. Spider 2.0 to kompleksowy benchmark tekstu do SQL, który testuje zdolność modeli AI do generowania dokładnych zapytań SQL z naturalnych pytań językowych w rzeczywistych bazach danych. Podczas gdy duże modele językowe podbiły pracę wiedzy w matematyce, kodowaniu i rozumowaniu, tekst do SQL pozostaje upartym wyzwaniem. Trzy benchmarki Spider 2.0 testują zapytania do rzeczywistych baz danych w różnych środowiskach. Spider 2.0-Snow używa baz danych Snowflake z 547 przykładami testowymi, osiągając szczytową dokładność na poziomie 59,05%. Spider 2.0-Lite obejmuje BigQuery, Snowflake i SQLite z kolejnymi 547 przykładami, osiągając jedynie 37,84%. Spider 2.0-DBT testuje generację kodu przeciwko DuckDB z 68 przykładami, osiągając maksymalnie 39,71%. Ta luka w wydajności nie wynika z braku prób. Od listopada 2024 roku 56 zgłoszeń z 12 rodzin modeli rywalizowało w tych benchmarkach. Claude, OpenAI, DeepSeek i inni wszyscy testowali swoje modele w tych testach. Postęp był stały, od około 2% do około 60% w ciągu ostatnich dziewięciu miesięcy. Zagadka pogłębia się, gdy weźmiesz pod uwagę ograniczenia SQL. SQL ma ograniczony słownik w porównaniu do angielskiego, który ma 600 000 słów, lub języków programowania, które mają znacznie szersze składnie i biblioteki do poznania. Poza tym jest mnóstwo SQL do trenowania. Jeśli już, to powinno być łatwiejsze niż otwarte zadania rozumowania, w których modele teraz doskonale sobie radzą. Jednak nawet doskonała generacja SQL nie rozwiązałaby prawdziwego wyzwania biznesowego. Każda firma definiuje "przychód" inaczej. Marketing mierzy koszt pozyskania klienta według wydatków na kampanię, sprzedaż oblicza go przy użyciu kosztów menedżerów kont, a finanse uwzględniają całkowite koszty pracowników. Te różnice semantyczne tworzą zamieszanie, którego techniczna dokładność nie może rozwiązać. Wyniki Spider 2.0 wskazują na fundamentalną prawdę o pracy z danymi. Techniczna biegłość w składni SQL to tylko punkt wyjścia. Prawdziwe wyzwanie leży w kontekście biznesowym. Zrozumienie, co oznaczają dane, jak różne zespoły definiują metryki i kiedy przypadki brzegowe mają znaczenie. Jak napisałem w Semantic Cultivators, most między surowymi danymi a znaczeniem biznesowym wymaga ludzkiego osądu, którego obecna AI nie potrafi zreplikować.
3,79K