DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

GPT-5 atteint une précision de 94,6 % sur l'AIME 2025, suggérant un raisonnement mathématique proche de celui des humains. Pourtant, demandez-lui d'interroger votre base de données, et les taux de réussite chutent dans les teens. Les benchmarks Spider 2.0 révèlent un écart béant dans les capacités de l'IA. Spider 2.0 est un benchmark complet de texte à SQL qui teste la capacité des modèles d'IA à générer des requêtes SQL précises à partir de questions en langage naturel à travers des bases de données du monde réel. Alors que les grands modèles de langage ont conquis le travail de connaissance en mathématiques, en codage et en raisonnement, le texte à SQL reste obstinément difficile. Les trois benchmarks Spider 2.0 testent l'interrogation de bases de données du monde réel dans différents environnements. Spider 2.0-Snow utilise des bases de données Snowflake avec 547 exemples de test, atteignant un pic de 59,05 % de précision. Spider 2.0-Lite couvre BigQuery, Snowflake et SQLite avec 547 autres exemples, n'atteignant que 37,84 %. Spider 2.0-DBT teste la génération de code contre DuckDB avec 68 exemples, culminant à 39,71 %. Cet écart de performance n'est pas dû à un manque d'efforts. Depuis novembre 2024, 56 soumissions de 12 familles de modèles ont concouru sur ces benchmarks. Claude, OpenAI, DeepSeek et d'autres ont tous poussé leurs modèles contre ces tests. Les progrès ont été constants, passant d'environ 2 % à environ 60 % au cours des neuf derniers mois. L'énigme se complique lorsque l'on considère les contraintes de SQL. SQL a un vocabulaire limité par rapport à l'anglais, qui compte 600 000 mots, ou aux langages de programmation qui ont des syntaxes et des bibliothèques beaucoup plus larges à connaître. De plus, il y a beaucoup de SQL disponible pour s'entraîner. Si quelque chose, cela devrait être plus facile que les tâches de raisonnement ouvertes où les modèles excellent maintenant. Pourtant, même une génération SQL parfaite ne résoudrait pas le véritable défi commercial. Chaque entreprise définit "revenu" différemment. Le marketing mesure le coût d'acquisition client par les dépenses de campagne, les ventes le calculent en utilisant les coûts des responsables de comptes, et la finance inclut les dépenses des employés entièrement chargées. Ces différences sémantiques créent une confusion que l'exactitude technique ne peut résoudre. Les résultats de Spider 2.0 pointent vers une vérité fondamentale sur le travail des données. La compétence technique en syntaxe SQL n'est que le point d'entrée. Le véritable défi réside dans le contexte commercial. Comprendre ce que signifie les données, comment différentes équipes définissent les métriques, et quand les cas limites sont importants. Comme je l'ai écrit dans Semantic Cultivators, le pont entre les données brutes et la signification commerciale nécessite un jugement humain que l'IA actuelle ne peut pas reproduire.

3,79K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables