gerade Kestrel 0.1.2 veröffentlicht es ist eine wirklich schnelle Moondream-Inferenz-Engine - SM89-Unterstützung hinzugefügt (L40S-Zahlen unten) - SM90 (H100) etwas schneller als zuvor
vik
vik11. Feb., 14:16
Optimierung der Inferenz für L4 GPUs. Maximaler Stromverbrauch 72 W
- sollte auch auf anderen GPUs ohne schnelle Kerne laufen, weiterhin von intelligentem Batching usw. profitieren, aber ich habe das noch nicht gründlich getestet.
35