Na minha opinião, o conceito de "sandbagging" meio que esconde o que "sandbagging" realmente significa (trocadilho intencional) A questão central agora é que os desenvolvedores de IA estão a "sandbagging" ao não fazer o suficiente para provocar um comportamento de topo, não os modelos de IA a "sandbagging".
Cas (Stephen Casper)
Cas (Stephen Casper)24/08, 19:00
A pesquisa sobre "sandbagging" em IA está a tornar-se mais popular recentemente. Neste 🧵, vou dar algumas razões pelas quais acho que não é um paradigma de pesquisa útil. Resumindo, acho que é uma reformulação confusa de problemas bastante bem estudados e anteriormente resolvidos.
3,82K