Приймаємо на роботу інженера RL! Починався як цікавий проект у @lossfunk році, спрямований на розширення меж LLM у соціальній міркуванні – зараз ми створюємо середовища RL, дані та тести для моделювання більш реальних сценаріїв. Якщо ви хочете тренувати моделі SoTA RL на кількох графічних процесорах (H200s/B200s), щоб розблокувати наступний рубіж штучного інтелекту, це для вас.
39,37K