Um trilhão de tokens por dia. É muito? "E quando olhamos de forma restrita apenas para o número de tokens servidos pelas APIs do Foundry, processamos mais de 100t de tokens neste trimestre, um aumento de 5x em relação ao ano anterior, incluindo um recorde de 50t de tokens apenas no mês passado." Em abril, a Microsoft compartilhou uma estatística, revelando que seu produto Foundry está processando cerca de 1,7t de tokens por mês. Ontem, Vipul compartilhou que está processando 2t de inferência de código aberto diariamente. Em julho, o Google anunciou um número impressionante: "Na I/O em maio, anunciamos que processamos 480 trilhões de tokens mensais em nossas superfícies. Desde então, dobramos esse número, agora processando mais de 980 trilhões de tokens mensais, um aumento notável." O Google processa 32,7t diariamente, 16x mais do que o Together e 574x mais do que o volume de abril do Microsoft Foundry. A partir desses números, podemos traçar algumas hipóteses: 1. A inferência de código aberto é uma fração de um único dígito da inferência. Não está claro qual fração dos tokens de inferência do Google vem de seus modelos de código aberto como o Gemma. Mas, se assumirmos que a Anthropic e a OpenAI estão em 5t-10t de tokens por dia e todos são de código fechado, além de que o Azure é aproximadamente semelhante em tamanho, então a inferência de código aberto provavelmente está em torno de 1-3% da inferência total. 2. Os agentes estão no início. O ponto de dados da Microsoft sugere que os agentes dentro do GitHub, Visual Studio, Copilot Studio e Microsoft Fabric contribuem com menos de 1% da inferência geral de IA no Azure. 3. Com a Microsoft prevista para investir $80 bilhões em comparação com os $85 bilhões do Google em infraestrutura de data center de IA este ano, as cargas de trabalho de inferência de IA de cada empresa devem aumentar significativamente, tanto através do hardware entrando em operação quanto das melhorias algorítmicas. "Apenas através da otimização de software, estamos entregando 90% mais tokens para a mesma GPU em comparação com um ano atrás." A Microsoft está extraindo mais limonada digital de suas GPUs e o Google também deve estar fazendo algo semelhante. Quando veremos os primeiros 10t ou 50t de tokens de IA processados por dia? Não pode estar muito longe agora. - Estimativas do nada! - Google e Azure com 33t de tokens por dia cada, Together e 5 outras neoclouds com aproximadamente 2t de tokens por dia cada, e Anthropic e OpenAI com 5t de tokens por dia, nos dá 88t de tokens por dia. Se assumirmos que 5% dos tokens do Google vêm de modelos de código aberto, isso dá 1,65t de tokens por dia, ou aproximadamente 1,9% da inferência total. Novamente, matemática muito aproximada.