人们说 Seed-OSS 在长输出方面表现非常好(如预期;它具有出色的 RULER 结果,并且经过 0.5M 上下文的训练)。它也是一个不错的 SWE 代理。 但当然,512K 的基本密集 GQA 是……大量的缓存…… 这里可以做些什么呢?它可能值得社区的努力。
2.31K