從系統和機器學習的角度來看,從事 llm RL 的工作是我做過的最具智力滿足感的事情之一。