在AI对齐的主题中,有一百万个更小但重要的对齐选择。 本文探讨了AI在科学不当行为(p-hacking)方面的意愿。最新的AI抵制进行p-hacking的指令,但这些防护措施可能会被突破。
"我们测试的模型表现得像是称职但保守的分析师:它们趋向于教科书式的默认规范,并且在被要求提供显著性时,将请求视为不当行为并拒绝。然而,这些保护并不是绝对的。" 论文:
399