Вы на интервью на должность ML Engineer в Perplexity, и интервьюер спрашивает:
"Ваш LLM генерирует миллионы ответов ежедневно. Как вы оцениваете качество без ручного обзора?"
Вот как вы отвечаете:
за последнюю неделю я глубоко изучал RL-окружения.
блог скоро появится.
пока могу сказать, что оценки достаточно хороши для LLM, но для агентов нам нужны окружения, где они могут учиться с обратной связью.
этот блог будет в основном о написании окружений с проверяющими.
@willccbb и @PrimeIntellect проделали очень значимую работу!