Làm việc với llm RL là một trong những điều thỏa mãn trí tuệ nhất mà tôi từng làm, cả từ góc độ hệ thống và ml.