¡Contratando a un ingeniero de RL! Comenzó como un proyecto curioso en @lossfunk para ampliar los límites de los LLM en el razonamiento social: ahora estamos construyendo entornos, datos y puntos de referencia de RL para simular más escenarios del mundo real. Si desea entrenar modelos SoTA RL a través de múltiples GPU (H200 / B200) para desbloquear la próxima frontera de IA, esto es para usted.
39.36K