vient de sortir kestrel 0.1.2 c'est un moteur d'inférence moondream vraiment rapide - support sm89 ajouté (numéros L40S ci-dessous) - sm90 (H100) légèrement plus rapide qu'avant
vik
vik11 févr., 14:16
optimisation de l'inférence pour les GPU L4. consommation maximale de 72 W
- devrait également fonctionner sur d'autres GPU sans noyaux rapides, tout en bénéficiant du smart batching, etc. mais je n'ai pas encore testé cela de manière approfondie.
65