Trabajar en llm RL es una de las cosas más intelectualmente satisfactorias que he hecho, tanto desde una perspectiva de sistema como de ml.