DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

💡 Los principales proveedores de inferencia — @basetenco, @DeepInfra, @FireworksAI_HQ y @togethercompute — están reduciendo el costo por token hasta en un 10x en diversas industrias con pilas de inferencia optimizadas impulsadas por la plataforma NVIDIA Blackwell. Al combinar la inteligencia de frontera #opensource con el diseño conjunto de hardware y software de NVIDIA Blackwell, y sus propias pilas de inferencia optimizadas, estos proveedores están logrando una reducción drástica en el costo de tokens para empresas como @SullyAI, Latitude, Sentient y Decagon. 🔗

⚡ Impulsado por NVIDIA Blackwell, @togethercompute y @DecagonAI están acelerando el servicio al cliente de IA, ofreciendo interacciones de voz similares a las humanas en menos de 600 ms y reduciendo costos en 6 veces. Con la pila de inferencia optimizada de Together funcionando en NVIDIA Blackwell, Decagon potencia experiencias de conserjería en tiempo real a gran escala, manejando cientos de consultas por segundo con precisión de subsegundo.

🩺 @SullyAI está transformando la eficiencia en la atención médica con la API de Modelos de Baseten, ejecutando modelos abiertos de vanguardia como gpt-oss-120b en GPUs NVIDIA Blackwell. Con su pila de inferencia optimizada construida utilizando NVIDIA Blackwell, NVFP4, TensorRT-LLM y NVIDIA Dynamo, Baseten logró una reducción de costos del 10x y respuestas un 65% más rápidas para flujos de trabajo clave como la generación de notas clínicas.

@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude ejecuta modelos de mezcla de expertos a gran escala en la plataforma de inferencia de DeepInfra, impulsada por GPUs NVIDIA Blackwell, NVFP4 y TensorRT LLM. DeepInfra redujo el costo por millón de tokens de $0.20 a $0.05 — una ganancia de eficiencia de 4x.

Para gestionar la escala y la complejidad, @SentientAGI utiliza la plataforma de inferencia Fireworks AI que funciona en NVIDIA Blackwell. Con la pila de inferencia optimizada para Blackwell de @FireworksAI_HQ, Sentient logró una eficiencia de costos de un 25-50% mejor en comparación con su implementación anterior basada en Hopper. En otras palabras, la empresa podría atender a un 25-50% más de usuarios concurrentes en cada GPU por el mismo costo. La escalabilidad de la plataforma apoyó un lanzamiento viral de 1.8 millones de usuarios en lista de espera en 24 horas y procesó 5.6 millones de consultas en una sola semana, mientras entregaba una latencia baja y consistente.

Parte superior

Clasificación

Favoritos