heb net mijn eerste multi-turn RL-omgeving gepusht naar @PrimeIntellect de opzet: het model krijgt de verhaaltitel + vraag van QuALITY (lange verhalen, meerkeuzevragen). tts enige tool: agentic RAG-zoekopdracht over het verhaal.
12,43K