Školení LLM od začátku do konce je těžké. Jsem velmi nadšený, že se mohu podělit o náš nový blog (knihu?), který pokrývá celý proces: pre-training, post-training a infra. 200+ stránek toho, co fungovalo, co ne a jak zajistit, aby to fungovalo spolehlivě
> vytvoření nového základního modelu je řádově obtížnější než doladění otevřeného modelu a optimalizace odvozování.
Trochu divoké, jak málo diskutované je, že většina startupů (dokonce i těch dobře financovaných) nemůže vytvořit své vlastní modely základů a spoléhá se na to, že frontier Chinese Labs open-sourcing ty své.
Důvodem, proč Cursor a Windsurf vydaly modely optimalizované pro rychlost, je to, že je to mnohem proveditelnější než vytváření základního modelu posouvajícího inteligenci
1. Vezměte QWEN3 a dolaďte jej pomocí RL na postroji
2. plácněte to na hardware Cerebras (nebo optimalizovaný GPU)
3. Nechte ten středně chytrý, superrychlý model vařit
Pro společnosti zabývající se kódováním, pokud chcete uvést na trh něco hodnotného, je vytvoření nového základního modelu řádově těžší než doladění otevřeného modelu a optimalizace odvozování.
upřímně řečeno, je to efektivní způsob, jak vydat něco, co se blíží hranici Pareta, a líbí se mi, že se začínají zapojovat společnosti zabývající se kódovacími agenty.
Ale nepleťte si to s kódovacími agenty společnostmi, které prohlašují "středně chytré, ale rychlé > vysoce chytré, ale pomalé"