💡 Os principais provedores de inferência — @basetenco, @DeepInfra, @FireworksAI_HQ e @togethercompute — estão reduzindo o custo por token em até 10 vezes em diferentes setores, com pilhas otimizadas de inferência alimentadas pela plataforma NVIDIA Blackwell. Ao combinar #opensource inteligência de fronteira com o codesign hardware–software da NVIDIA Blackwell e suas próprias pilhas de inferência otimizadas, esses provedores estão proporcionando uma redução dramática de custos de tokens para empresas como @SullyAI, Latitude, Sentient e Decagon. 🔗
⚡ Impulsionados pela NVIDIA Blackwell, @togethercompute e @DecagonAI estão acelerando o atendimento ao cliente com IA — entregando interações de voz semelhantes às humanas em menos de 600 ms e reduzindo custos em 6 vezes. Com a pilha de inferência otimizada do Together rodando no NVIDIA Blackwell, o Decagon impulsiona experiências de concierge em tempo real em escala — lidando com centenas de consultas por segundo com precisão abaixo do segundo.
🩺 @SullyAI está transformando a eficiência da saúde com a Model API da Baseten, rodando modelos abertos de vanguarda como gpt-oss-120b nas GPUs NVIDIA Blackwell. Com sua pilha de inferência otimizada construída usando NVIDIA Blackwell, NVFP4, TensorRT-LLM e NVIDIA Dynamo, a Baseten proporcionou uma redução de custo 10x e respostas 65% mais rápidas para fluxos de trabalho importantes, como geração de anotações clínicas.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude roda modelos em grande escala misturados de especialistas na plataforma de inferência da DeepInfra, alimentada por GPUs NVIDIA Blackwell, NVFP4 e TensorRT LLM. A DeepInfra reduziu o custo por milhão de tokens de $0,20 para $0,05 — um ganho de eficiência de 4x.
Para gerenciar escala e complexidade, @SentientAGI utiliza a plataforma de inferência de IA Fireworks, rodando no NVIDIA Blackwell. Com a pilha de inferência otimizada para Blackwell da @FireworksAI_HQ, o Sentient alcançou uma eficiência de custo 25-50% melhor em comparação com sua implantação anterior baseada no Hopper.  Em outras palavras, a empresa poderia atender de 25 a 50% mais usuários concorrentes em cada GPU pelo mesmo custo. A escalabilidade da plataforma suportou um lançamento viral de 1,8 milhão de usuários em lista de espera em 24 horas e processou 5,6 milhões de consultas em uma única semana, mantendo uma latência baixa consistente.
66