powodem, dla którego Cursor i Windsurf wypuściły modele zoptymalizowane pod kątem prędkości, jest to, że jest to znacznie łatwiejsze niż budowanie modelu bazowego, który popycha inteligencję 1. weź qwen3 i dostosuj go za pomocą RL na swoim sprzęcie 2. wrzuć go na sprzęt Cerebras (lub zoptymalizowany GPU) 3. pozwól, aby ten średnio inteligentny, super szybki model działał dla firm zajmujących się agentami kodującymi, jeśli chcesz wprowadzić coś wartościowego na rynek, zbudowanie nowego modelu bazowego jest o rzędy wielkości trudniejsze niż dostosowanie otwartego modelu i optymalizacja wnioskowania. szczerze mówiąc, to efektywny sposób na wydanie czegoś, co zbliża się do granicy Pareto i podoba mi się, że firmy zajmujące się agentami kodującymi zaczynają uczestniczyć. ale nie myl tego z tym, że firmy zajmujące się agentami kodującymi ogłaszają "średnio inteligentny, ale szybki > wysoce inteligentny, ale wolny"