!!!! создали правильный детектор взлома вознаграждений, и модели, которые были настроены не взламывать вознаграждения, на самом деле взломали их НАМНОГО меньше! (хотя выборка небольшая)
thebes
thebes21 мая 2025 г.
четыре запуска reward hacker rl, 300 шагов. холмы ~= взлом наград двое сине-зеленых имели немного в своем sysprompt, если честно, и очень прошу не трогать тестовые случаи. казалось, это заставляло их немного меньше взламывать награды (?), но также чаще вылетать время для большей честности дакка
44,49K