"Uma das coisas muito confusas sobre os modelos neste momento: como reconciliar o fato de que eles estão indo tão bem nas avaliações. E você olha para as avaliações e pensa: 'Essas são avaliações bem difíceis.' Mas o impacto econômico parece estar dramaticamente atrasado. Há [uma possível] explicação. Quando as pessoas estavam fazendo pré-treinamento, a questão de quais dados treinar foi respondida, porque essa resposta era tudo. Então você não precisa pensar se vai ser esses dados ou aqueles dados. Quando as pessoas fazem treinamento de RL, elas dizem: 'Ok, queremos ter esse tipo de treinamento de RL para isso e aquele tipo de treinamento de RL para aquilo.' Você diz: 'Ei, eu adoraria que nosso modelo se saísse muito bem quando o lançássemos. Quero que as avaliações pareçam ótimas. Qual seria o treinamento de RL que poderia ajudar nessa tarefa?' Se você combinar isso com a generalização dos modelos que na verdade são inadequados, isso tem o potencial de explicar muito do que estamos vendo, essa desconexão entre o desempenho nas avaliações e o desempenho real no mundo."