Il y a beaucoup de confusion en ligne sur ce qu'est vraiment un environnement RL. C'est littéralement juste une référence. - Un environnement - Un état de départ - Un vérificateur qui vérifie si un état final est correct ou acceptable L'environnement est une petite sandbox qui donne à l'LLM l'opportunité d'interagir réellement — de prendre des actions, de voir des résultats et d'affecter le monde dans lequel il se trouve. Dans le cas de TerminalBench, c'est juste un conteneur Docker qui émule un véritable terminal de développeur, complet avec des fichiers, des dépendances et des outils système que le modèle peut utiliser. L'état de départ définit ce que le modèle voit lorsque la tâche commence — les entrées, le contexte et les conditions initiales. Dans une référence de codage, cela pourrait être l'état d'un dépôt Git lorsque l'utilisateur a commencé à travailler : les fichiers, le rapport de bogue, les tests échoués et l'invite de départ de l'utilisateur qui indique au modèle ce qui doit être fait. C'est la "configuration du problème", figée dans le temps, de sorte que chaque modèle commence à la même position et que le résultat puisse être comparé équitablement. Enfin, le vérificateur est ce qui rend le tout mesurable. C'est la pièce qui vérifie si le modèle a réellement résolu la tâche — le juge automatisé qui transforme des sorties désordonnées en un score simple ou un signal de réussite/échec. C'est pourquoi vous entendez des gens dans des laboratoires dire "nous avons formé des vérificateurs". Ils parlent d'avoir un moyen automatisé d'évaluer le comportement du modèle. Cela devient alors la fonction de récompense pour RL, ou le signal de réussite/échec pour les références.