Acabo de lanzar Kestrel 0.1.2 Es un motor de inferencia Moondream muy rápido - añadido soporte para sm89 (números L40S abajo) - sm90 (H100) ligeramente más rápido que antes
vik
vik11 feb, 14:16
optimizando la inferencia para GPUs L4. consumo máximo 72 W
- también debería funcionar en otras GPUs sin kernels rápidos, aún beneficiándose del batch inteligente, etc., pero aún no lo he probado a fondo
39