令人驚訝的是,對於質量檢查 gpt-oss CoTs 的興趣竟然如此之小。我是說,這些人是創造這一範式的,我想他們並不像大多數人那樣使用 GRPO 變體,難道有什麼不同嗎? 不,大家只關心能力。
1.95K