DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Väldigt cool blogg av @character_ai som dyker in i hur de tränade sin egenutvecklade modell Kaiju (13B, 34B, 110B), innan de bytte till OSS-modell, och spoiler: den har Noam Shazeer skrivet över den. De flesta av valen för modelldesign (MQA, SWA, KV Cache, Quantization) är inte att optimera för "AGI benchmark" (tänk MMLU) eftersom detta inte är vad folk kommer att använda modellen till utan istället ha en bra serveringshastighet. Ändå inkluderar de kod i förträningsmixen och glödgar på högkvalitativa "benchmark-vänliga" data. En överraskande sak är att dessa modeller inte är MoE, trots att personer som arbetade med karaktär på den tiden som @stephenroller eller Noam tidigare arbetade med MoE. Här är några optimeringar som de gjorde -> MuP-liknande fjällning -> MQA + Växjö -> Klämmer överallt för att kontrollera aktiveringen, är du osäker på om den är mjuk eller hård? -> KV-cachedelning -> Aktiveringsfunktion för Relu^2 -> FSDP + TP + SP -> Int6 gradient kommunikation -> Quantization Aware Training (QAT) med saker som "bungee_scalar" för att få ett stabilt recept för mindre modeller. KV Cache och forward pass finns i int8, gradient och aktivering är i bf16, master weight och grad acc i fp32.

Topp

Rankning

Favoriter