Právě vydal Kestrel 0.1.2 Je to opravdu rychlý inferenční engine pro moondreamy - přidáno podpora sm89 (čísla L40S níže) - sm90 (H100) o něco rychlejší než dříve
vik
vik11. 2. 14:16
optimalizace inference pro L4 GPU. maximální odběr energie 72 W
- mělo by také běžet na jiných GPU bez rychlých jader, stále těžit ze smart batchingu atd., ale zatím jsem to důkladně netestoval
64