je viens de publier mon premier environnement RL multi-tour sur @PrimeIntellect la configuration : le modèle reçoit le titre de l'histoire + la question de QuALITY (longues histoires, questions à choix multiples). outil uniquement TTS : recherche agentique RAG sur l'histoire.
12,44K