Le fine-tuning en crowdsourcing + RL est sous-estimé.
TBPN
TBPN28 août 2025
@willccbb (Responsable de la recherche, Prime Intellect) sur le fonctionnement réel des environnements RL : « Un environnement est essentiellement une évaluation. Vous avez des tâches d'entrée, un harnais, et à la fin, il évalue comment votre modèle ou agent performe. C'est la configuration que nous utilisons pour les évaluations et l'entraînement RL. » Il ajoute que l'avenir ne consiste pas seulement à « obtenir 100 000 GPU dans un énorme cluster. »
1,06K