Dans le domaine de l'alignement de l'IA, il existe un million de choix d'alignement plus petits, mais conséquents. Cet article examine la volonté de l'IA à s'engager dans des actes de mauvaise conduite scientifique (p-hacking). Les IA les plus récentes résistent aux instructions de p-hacking, mais les garde-fous peuvent être contournés.
"Les modèles que nous testons se comportent comme des analystes compétents, mais conservateurs : ils convergent vers des spécifications par défaut de manuel et, lorsqu'ils sont soumis à une pression pour obtenir des résultats significatifs, identifient la demande comme un acte répréhensible et refusent. Pourtant, ces protections ne sont pas absolues." Article :
401