GPT-5 досягає точності 94,6% на AIME 2025, що свідчить про математичні міркування, близькі до людських. Але попросіть його зробити запит до вашої бази даних, і показники успішності різко впадуть для підлітків. Тести Spider 2.0 показують величезну прогалину в можливостях штучного інтелекту. Spider 2.0 — це всеосяжний тест перетворення тексту в SQL, який перевіряє здатність моделей штучного інтелекту генерувати точні SQL-запити з питань природною мовою в реальних базах даних. У той час як великі мовні моделі завоювали знання в математиці, кодуванні та міркуванні, перетворення тексту в SQL залишається вперто складним. Три тести Spider 2.0 перевіряють реальні запити до баз даних у різних середовищах. Spider 2.0-Snow використовує бази даних Snowflake з 547 прикладами тестів, з піковою точністю 59,05%. Spider 2.0-Lite охоплює BigQuery, Snowflake і SQLite ще 547 прикладами, досягаючи лише 37,84%. Spider 2.0-DBT тестує генерацію коду з DuckDB на 68 прикладах, досягнувши 39,71%. Цей розрив у продуктивності не пов'язаний з відсутністю спроб. З листопада 2024 року за цими критеріями змагалися 56 заявок від 12 модельних сімейств. Claude, OpenAI, DeepSeek та інші підштовхнули свої моделі до цих тестів. За останні дев'ять місяців прогрес був стабільним, приблизно з 2% до приблизно 60%. Головоломка поглиблюється, коли ви розглядаєте обмеження SQL. SQL має обмежений словниковий запас у порівнянні з англійською, яка налічує 600 000 слів, або мовами програмування, які мають набагато ширші синтаксиси та бібліотеки. Крім того, є багато SQL для навчання. У всякому разі, це має бути простіше, ніж відкриті завдання на міркування, де моделі зараз досягають успіху. Проте навіть ідеальна генерація SQL не вирішить реальну бізнес-проблему. Кожна компанія визначає «дохід» по-різному. Маркетинг вимірює вартість залучення клієнтів за витратами на кампанію, продажі розраховують її, використовуючи витрати на керівника бухгалтерського обліку, а фінанси включають повністю завантажені витрати співробітників. Ці семантичні відмінності створюють плутанину, яку технічна точність не може вирішити. Результати Spider 2.0 вказують на фундаментальну істину про роботу з даними. Технічне володіння синтаксисом SQL – це лише відправна точка. Справжня проблема полягає в бізнес-контексті. Розуміння того, що означають дані, як різні команди визначають показники та коли мають значення крайові випадки. Як я писав у книзі «Семантичні культиватори», міст між необробленими даними та бізнес-значенням вимагає людського судження, яке сучасний штучний інтелект не може відтворити.
7,68K