Travailler sur le RL LLM est l'une des choses les plus intellectuellement satisfaisantes que j'ai jamais faites, tant du point de vue des systèmes que de celui de l'apprentissage automatique.