acabo de subir mi primer entorno de RL de múltiples turnos a @PrimeIntellect la configuración: el modelo recibe el título de la historia + pregunta de QuALITY (historias largas, preguntas de opción múltiple). herramienta solo de TTS: búsqueda RAG agentic sobre la historia.
12,45K