从系统和机器学习的角度来看,研究llm RL是我做过的最具智力满足感的事情之一。