acabei de lançar o kestrel 0.1.2 é um motor de inferência moondream realmente rápido - suporte a sm89 (números L40S abaixo) - sm90 (H100) ligeiramente mais rápido do que antes
vik
vik11/02, 14:16
otimização da inferência para GPUs L4. consumo máximo de energia 72 W
- deve também funcionar em outras GPUs sem kernels rápidos, ainda beneficiando de smart batching etc. mas eu ainda não testei isso de forma aprofundada.
67