Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 logra una precisión del 94,6% en AIME 2025, lo que sugiere un razonamiento matemático casi humano.
Sin embargo, pídale que consulte su base de datos y las tasas de éxito se desploman a los adolescentes.
Los puntos de referencia de Spider 2.0 revelan una gran brecha en las capacidades de IA. Spider 2.0 es un punto de referencia integral de texto a SQL que prueba la capacidad de los modelos de IA para generar consultas SQL precisas a partir de preguntas de lenguaje natural en bases de datos del mundo real.
Si bien los grandes modelos de lenguaje han conquistado el trabajo de conocimiento en matemáticas, codificación y razonamiento, el texto a SQL sigue siendo obstinadamente difícil.
Los tres puntos de referencia de Spider 2.0 prueban la consulta de bases de datos del mundo real en diferentes entornos. Spider 2.0-Snow utiliza bases de datos Snowflake con 547 ejemplos de prueba, con una precisión máxima del 59,05%.
Spider 2.0-Lite abarca BigQuery, Snowflake y SQLite con otros 547 ejemplos, alcanzando solo el 37.84%. Spider 2.0-DBT prueba la generación de código contra DuckDB con 68 ejemplos, alcanzando un máximo del 39,71%.
Esta brecha de rendimiento no se debe a la falta de intentos. Desde noviembre de 2024, 56 presentaciones de 12 familias modelo han competido en estos puntos de referencia.
Claude, OpenAI, DeepSeek y otros han impulsado sus modelos contra estas pruebas. El progreso ha sido constante, de aproximadamente el 2% a aproximadamente el 60%, en los últimos nueve meses.
El rompecabezas se profundiza cuando se consideran las restricciones de SQL. SQL tiene un vocabulario limitado en comparación con el inglés, que tiene 600.000 palabras, o lenguajes de programación que tienen sintaxis y bibliotecas mucho más amplias para conocer. Además, hay mucho SQL para entrenar.
En todo caso, esto debería ser más fácil que las tareas de razonamiento abierto donde los modelos ahora sobresalen.
Sin embargo, incluso la generación perfecta de SQL no resolvería el verdadero desafío comercial. Cada empresa define los "ingresos" de manera diferente.
Marketing mide el costo de adquisición de clientes por gasto de campaña, ventas lo calcula utilizando los costos de los ejecutivos de cuentas y finanzas incluye los gastos de empleados completamente cargados. Estas diferencias semánticas crean una confusión que la precisión técnica no puede resolver.
Los resultados de Spider 2.0 apuntan a una verdad fundamental sobre el trabajo de datos. La competencia técnica en la sintaxis SQL es solo el punto de entrada.
El verdadero desafío radica en el contexto empresarial. Comprender qué significan los datos, cómo los diferentes equipos definen las métricas y cuándo son importantes los casos extremos. Como escribí en Semantic Cultivators, el puente entre los datos sin procesar y el significado comercial requiere un juicio humano que la IA actual no puede replicar.

7.66K
Populares
Ranking
Favoritas