Люди говорят, что Seed-OSS очень хорош в длинных выводах (как и задумано; у него отличные результаты RULER и он обучен на 0,5M контекста). Это также неплохой агент SWE. Но, конечно, 512K с базовым плотным GQA — это... много кэша... Что можно сделать в этом случае? Возможно, это заслуживает усилий сообщества.
2,33K