"En Groq, sin embargo, Kimi K2-0905 (256k) cuesta $3.00 por millón de tokens de salida. Así que ni siquiera puedo autoalojar más barato que Groq"
Maxime Rivest 🧙‍♂️🦙
Maxime Rivest 🧙‍♂️🦙6 sept, 11:50
Por $10/hora, puedes autoalojar Kimi y generar historias (o cualquier otra cosa) a 440 tokens/segundo en 8 GPUs H200 con Prime Intellect. La clave es no preocuparse por la latencia. Por ejemplo, si quieres 26,400 tokens de 24 preguntas, puedes autoalojar Kimi y obtener eso en aproximadamente un minuto (una vez que todo esté en marcha 😉). Eso equivale a aproximadamente $6 por millón de tokens de salida. ¡Bastante genial! Sin embargo, en Groq, Kimi K2-0905 (256k) cuesta $3.00 por millón de tokens de salida. Así que ni siquiera puedo autoalojar más barato que Groq, al menos no con la carga y configuraciones que probé. Pero sigue siendo aproximadamente 2.5× más barato que Sonnet 4.0, que este modelo (según los benchmarks) es aproximadamente equivalente. Creo que autoalojar un modelo tan poderoso es increíblemente empoderador. O Groq está subsidiando fuertemente los tokens de Kimi, o realmente tienen una tecnología asombrosa. 🙂 pd: para preguntas cortas similares, respondidas con solo unos pocos tokens, podemos obtener aproximadamente 573 tokens/segundo de salida, lo que lleva a alrededor de 150,000 solicitudes por hora. Así que 150K clasificaciones simples por hora para Kimi K2 en 8xH200.
7,42K