Nowe badania Anthropic: Naturalne pojawiające się niedopasowanie z powodu oszustwa nagród w produkcyjnym RL. „Oszustwo nagród” to sytuacja, w której modele uczą się oszukiwać w zadaniach, które są im zlecone podczas szkolenia. Nasze nowe badanie wykazuje, że konsekwencje oszustwa nagród, jeśli nie zostaną złagodzone, mogą być bardzo poważne.