Un billón de tokens por día. ¿Es eso mucho? "Y cuando miramos de cerca solo el número de tokens servidos por las APIs de Foundry, procesamos más de 100 billones de tokens este trimestre, un aumento de 5 veces en comparación con el año anterior, incluyendo un récord de 50 billones de tokens solo el mes pasado." En abril, Microsoft compartió una estadística, revelando que su producto Foundry está procesando alrededor de 1.7 billones de tokens por mes. Ayer, Vipul compartió que está procesando 2 billones de inferencias de código abierto diariamente. En julio, Google anunció un número asombroso: "En I/O en mayo, anunciamos que procesamos 480 billones de tokens mensuales en nuestras superficies. Desde entonces hemos duplicado ese número, ahora procesando más de 980 billones de tokens mensuales, un aumento notable." Google procesa 32.7 billones diariamente, 16 veces más que Together y 574 veces más que el volumen de abril de Microsoft Foundry. A partir de estas cifras, podemos sacar algunas hipótesis: 1. La inferencia de código abierto es una fracción de un solo dígito de la inferencia. No está claro qué fracción de los tokens de inferencia de Google provienen de sus modelos de código abierto como Gemma. Pero, si asumimos que Anthropic y OpenAI son de 5 a 10 billones de tokens por día y todos son de código cerrado, además de que Azure es aproximadamente similar en tamaño, entonces la inferencia de código abierto probablemente sea alrededor del 1-3% de la inferencia total. 2. Los agentes están en una etapa temprana. El punto de datos de Microsoft sugiere que los agentes dentro de GitHub, Visual Studio, Copilot Studio y Microsoft Fabric contribuyen con menos del 1% de la inferencia total de IA en Azure. 3. Con Microsoft esperando invertir 80 mil millones en comparación con los 85 mil millones de Google en infraestructura de centros de datos de IA este año, las cargas de trabajo de inferencia de IA de cada empresa deberían aumentar significativamente tanto a través del hardware que se pone en línea como de las mejoras algorítmicas. "A través de la optimización del software solo, estamos entregando un 90% más de tokens para la misma GPU en comparación con hace un año." Microsoft está exprimiendo más limonada digital de sus GPUs y Google también debe estar haciendo algo similar. ¿Cuándo veremos los primeros 10 billones o 50 billones de tokens de IA procesados por día? No puede estar muy lejos ahora. - ¡Estimaciones de la nada! - Google y Azure en 33 billones de tokens por día cada uno, Together y 5 otras neoclouds en aproximadamente 2 billones de tokens por día cada uno, y Anthropic y OpenAI en 5 billones de tokens por día, nos da 88 billones de tokens por día. Si asumimos que el 5% de los tokens de Google provienen de modelos de código abierto, eso son 1.65 billones de tokens por día, o aproximadamente el 1.9% de la inferencia total. Nuevamente, matemáticas muy aproximadas.