.@willccbb (Research Lead, Prime Intellect) про те, як насправді працюють середовища RL:
«Навколишнє середовище – це, по суті, евал. У вас є завдання на введення, джгут, і в кінці він оцінює, як працює ваша модель або агент. Саме таку установку ми використовуємо як для тренувань, так і для тренувань RL».
Він додає, що майбутнє полягає не лише в тому, щоб «отримати 100 000 графічних процесорів в одному гігантському кластері».
Останній тиждень я займаюся розробкою середовищ. Я вважаю, що це могло б виправити потреби мас у середовищі РЛ. Було багато цікавого, крутого матеріалу для тестування, включаючи створене мною середовище перевірки Lean4, натхненне StepRunProver.