GPT-5 достигает 94,6% точности на AIME 2025, что предполагает почти человеческое математическое мышление. Но если попросить его выполнить запрос к вашей базе данных, уровень успеха падает до подростковых значений. Бенчмарки Spider 2.0 выявляют огромный разрыв в возможностях ИИ. Spider 2.0 — это комплексный бенчмарк text-to-SQL, который тестирует способность ИИ-моделей генерировать точные SQL-запросы из вопросов на естественном языке по реальным базам данных. Хотя большие языковые модели завоевали знания в математике, программировании и логическом мышлении, text-to-SQL остается упрямо сложным. Три бенчмарка Spider 2.0 тестируют запросы к реальным базам данных в различных средах. Spider 2.0-Snow использует базы данных Snowflake с 547 тестовыми примерами, достигая максимальной точности 59,05%. Spider 2.0-Lite охватывает BigQuery, Snowflake и SQLite с еще 547 примерами, достигая лишь 37,84%. Spider 2.0-DBT тестирует генерацию кода против DuckDB с 68 примерами, достигая 39,71%. Этот разрыв в производительности не из-за недостатка усилий. С ноября 2024 года 56 заявок от 12 семейств моделей соревновались на этих бенчмарках. Claude, OpenAI, DeepSeek и другие все протестировали свои модели на этих тестах. Прогресс был стабильным, от примерно 2% до около 60% за последние девять месяцев. Загадка углубляется, когда вы учитываете ограничения SQL. У SQL ограниченный словарный запас по сравнению с английским, который имеет 600 000 слов, или языками программирования, которые имеют гораздо более широкие синтаксисы и библиотеки для изучения. Плюс, существует множество SQL, на котором можно обучаться. Если что-то, это должно быть проще, чем открытые задачи на рассуждение, в которых модели сейчас преуспевают. Тем не менее, даже идеальная генерация SQL не решит настоящую бизнес-проблему. Каждая компания по-разному определяет "доход". Маркетинг измеряет стоимость привлечения клиентов по расходам на кампанию, продажи рассчитывают это, используя затраты на менеджеров по продажам, а финансы включают полностью загруженные расходы сотрудников. Эти семантические различия создают путаницу, которую техническая точность не может разрешить. Результаты Spider 2.0 указывают на основную истину о работе с данными. Техническая компетентность в синтаксисе SQL — это лишь отправная точка. Настоящая проблема заключается в бизнес-контексте. Понимание того, что означают данные, как разные команды определяют метрики и когда важны крайние случаи. Как я писал в "Семантических культиваторах", мост между сырыми данными и бизнес-смыслом требует человеческого суждения, которое текущий ИИ не может воспроизвести.
7,66K