No tema do alinhamento da IA, há um milhão de escolhas de alinhamento menores, mas importantes. Este artigo analisa a disposição da IA em praticar má conduta científica (p-hacking). As IAs mais recentes resistem a instruções para fazer p-hack, mas as barreiras podem ser ultrapassadas.
"Os modelos que testamos se comportam como analistas competentes, embora conservadores: convergem para especificações padrão de livros didáticos e, quando pressionados por significância, identificam o pedido como má conduta e recusa. No entanto, essas proteções não são absolutas." Papel:
396