Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 достигает 94,6% точности на AIME 2025, что предполагает почти человеческое математическое мышление.
Но если попросить его выполнить запрос к вашей базе данных, уровень успеха падает до подростковых значений.
Бенчмарки Spider 2.0 выявляют огромный разрыв в возможностях ИИ. Spider 2.0 — это комплексный бенчмарк text-to-SQL, который тестирует способность ИИ-моделей генерировать точные SQL-запросы из вопросов на естественном языке по реальным базам данных.
Хотя большие языковые модели завоевали знания в математике, программировании и логическом мышлении, text-to-SQL остается упрямо сложным.
Три бенчмарка Spider 2.0 тестируют запросы к реальным базам данных в различных средах. Spider 2.0-Snow использует базы данных Snowflake с 547 тестовыми примерами, достигая максимальной точности 59,05%.
Spider 2.0-Lite охватывает BigQuery, Snowflake и SQLite с еще 547 примерами, достигая лишь 37,84%. Spider 2.0-DBT тестирует генерацию кода против DuckDB с 68 примерами, достигая 39,71%.
Этот разрыв в производительности не из-за недостатка усилий. С ноября 2024 года 56 заявок от 12 семейств моделей соревновались на этих бенчмарках.
Claude, OpenAI, DeepSeek и другие все протестировали свои модели на этих тестах. Прогресс был стабильным, от примерно 2% до около 60% за последние девять месяцев.
Загадка углубляется, когда вы учитываете ограничения SQL. У SQL ограниченный словарный запас по сравнению с английским, который имеет 600 000 слов, или языками программирования, которые имеют гораздо более широкие синтаксисы и библиотеки для изучения. Плюс, существует множество SQL, на котором можно обучаться.
Если что-то, это должно быть проще, чем открытые задачи на рассуждение, в которых модели сейчас преуспевают.
Тем не менее, даже идеальная генерация SQL не решит настоящую бизнес-проблему. Каждая компания по-разному определяет "доход".
Маркетинг измеряет стоимость привлечения клиентов по расходам на кампанию, продажи рассчитывают это, используя затраты на менеджеров по продажам, а финансы включают полностью загруженные расходы сотрудников. Эти семантические различия создают путаницу, которую техническая точность не может разрешить.
Результаты Spider 2.0 указывают на основную истину о работе с данными. Техническая компетентность в синтаксисе SQL — это лишь отправная точка.
Настоящая проблема заключается в бизнес-контексте. Понимание того, что означают данные, как разные команды определяют метрики и когда важны крайние случаи. Как я писал в "Семантических культиваторах", мост между сырыми данными и бизнес-смыслом требует человеческого суждения, которое текущий ИИ не может воспроизвести.

7,66K
Топ
Рейтинг
Избранное