Тренувати LLM від початку до кінця важко. Дуже раді поділитися нашим новим блогом (книгою?), який охоплює повний асортимент: передтренування, після тренування та інфраструктуру. 200+ сторінок про те, що спрацювало, що ні, і як зробити так, щоб це працювало надійно
> побудувати нову базову модель на порядки складніше, ніж тонко налаштувати відкриту модель і оптимізувати висновок.
Дивно, наскільки мало обговорюється той факт, що більшість стартапів (навіть добре фінансованих) не можуть побудувати власні базові моделі і покладаються на відкриті джерела своїх лабораторій Frontier Chines.
Причина, по якій Cursor і Windsurf випустили моделі, оптимізовані для швидкості, полягає в тому, що це набагато більш здійсненно, ніж побудова базової моделі, що просуває інтелект
1. Візьміть QWEN3 і точно налаштуйте його через RL на вашому джгуті
2. шльопнути його на апаратному забезпеченні Cerebras (або оптимізованому графічному процесорі)
3. Дозвольте цій середньо-розумній, надшвидкій моделі готувати
Для компаній-агентів з кодування, якщо ви хочете вивести на ринок щось цінне, побудувати нову базову модель на порядки складніше, ніж тонко налаштувати відкриту модель і оптимізувати висновок.
Чесно кажучи, це ефективний спосіб випустити щось, що наближається до кордону Парето, і мені подобається, що компанії-агенти з кодування починають брати участь.
Але не плутайте це з компаніями-кодувальниками, які заявляють «середньо розумні, але швидкі > дуже розумні, але повільні»