Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"En Groq, sin embargo, Kimi K2-0905 (256k) cuesta $3.00 por millón de tokens de salida. Así que ni siquiera puedo autoalojar más barato que Groq"

6 sept, 11:50
Por $10/hora, puedes autoalojar Kimi y generar historias (o cualquier otra cosa) a 440 tokens/segundo en 8 GPUs H200 con Prime Intellect.
La clave es no preocuparse por la latencia. Por ejemplo, si quieres 26,400 tokens de 24 preguntas, puedes autoalojar Kimi y obtener eso en aproximadamente un minuto (una vez que todo esté en marcha 😉).
Eso equivale a aproximadamente $6 por millón de tokens de salida. ¡Bastante genial!
Sin embargo, en Groq, Kimi K2-0905 (256k) cuesta $3.00 por millón de tokens de salida. Así que ni siquiera puedo autoalojar más barato que Groq, al menos no con la carga y configuraciones que probé. Pero sigue siendo aproximadamente 2.5× más barato que Sonnet 4.0, que este modelo (según los benchmarks) es aproximadamente equivalente.
Creo que autoalojar un modelo tan poderoso es increíblemente empoderador. O Groq está subsidiando fuertemente los tokens de Kimi, o realmente tienen una tecnología asombrosa. 🙂
pd: para preguntas cortas similares, respondidas con solo unos pocos tokens, podemos obtener aproximadamente 573 tokens/segundo de salida, lo que lleva a alrededor de 150,000 solicitudes por hora. Así que 150K clasificaciones simples por hora para Kimi K2 en 8xH200.

7,42K
Parte superior
Clasificación
Favoritos