¿Quieres aprender a alinear un Modelo de Lenguaje de Visión (VLM) para el razonamiento utilizando GRPO y TRL? 🌋 🧑‍🍳 ¡Te tenemos cubierto!! Nueva receta de post-entrenamiento multimodal para alinear un VLM utilizando TRL en el Cookbook de @huggingface.
10,36K