Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

GPT-5 osiąga 94,6% dokładności w AIME 2025, co sugeruje niemal ludzkie rozumowanie matematyczne. Jednak gdy poprosisz go o zapytanie do twojej bazy danych, wskaźniki sukcesu spadają do nastolatków. Benchmarki Spider 2.0 ujawniają ogromną lukę w możliwościach AI. Spider 2.0 to kompleksowy benchmark text-to-SQL, który testuje zdolność modeli AI do generowania dokładnych zapytań SQL z naturalnych pytań językowych w rzeczywistych bazach danych. Podczas gdy duże modele językowe opanowały pracę związaną z wiedzą w matematyce, kodowaniu i rozumowaniu, text-to-SQL pozostaje upartym wyzwaniem. Trzy benchmarki Spider 2.0 testują zapytania do rzeczywistych baz danych w różnych środowiskach. Spider 2.0-Snow wykorzystuje bazy danych Snowflake z 547 przykładami testowymi, osiągając szczytową dokładność na poziomie 59,05%. Spider 2.0-Lite obejmuje BigQuery, Snowflake i SQLite z kolejnymi 547 przykładami, osiągając jedynie 37,84%. Spider 2.0-DBT testuje generację kodu w DuckDB z 68 przykładami, osiągając maksymalnie 39,71%. Ta luka w wydajności nie wynika z braku prób. Od listopada 2024 roku 56 zgłoszeń z 12 rodzin modeli rywalizowało w tych benchmarkach. Claude, OpenAI, DeepSeek i inni wszyscy testowali swoje modele w tych testach. Postęp był stały, od około 2% do około 60% w ciągu ostatnich dziewięciu miesięcy. Zagadka pogłębia się, gdy weźmiesz pod uwagę ograniczenia SQL. SQL ma ograniczony słownik w porównaniu do angielskiego, który ma 600 000 słów, czy języków programowania, które mają znacznie szersze składnie i biblioteki do poznania. Poza tym jest mnóstwo SQL do trenowania. Jeśli już, to powinno być łatwiejsze niż otwarte zadania rozumowania, w których modele teraz błyszczą. Jednak nawet doskonała generacja SQL nie rozwiązałaby prawdziwego wyzwania biznesowego. Każda firma definiuje "przychód" inaczej. Marketing mierzy koszt pozyskania klienta według wydatków na kampanię, sprzedaż oblicza go na podstawie kosztów menedżerów kont, a finanse uwzględniają całkowite wydatki pracowników. Te różnice semantyczne tworzą zamieszanie, którego techniczna dokładność nie może rozwiązać. Wyniki Spider 2.0 wskazują na fundamentalną prawdę o pracy z danymi. Techniczna biegłość w składni SQL to tylko punkt wyjścia. Prawdziwe wyzwanie leży w kontekście biznesowym. Zrozumienie, co oznaczają dane, jak różne zespoły definiują metryki i kiedy przypadki brzegowe mają znaczenie. Jak pisałem w Semantic Cultivators, most między surowymi danymi a znaczeniem biznesowym wymaga ludzkiego osądu, którego obecna AI nie potrafi zreplikować.

7,65K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi