Acabei de lançar o Kestrel 0.1.2 É um motor de inferência Moondream muito rápido - adicionado suporte a sm89 (números L40S abaixo) - sm90 (H100) um pouco mais rápido que antes
vik
vik11 de fev., 14:16
otimizando inferência para GPUs L4. consumo máximo de energia 72 W
- também deve rodar em outras GPUs sem kernels rápidos, ainda beneficiando do batching inteligente, etc., mas ainda não testei isso a fundo
38