在AI對齊的主題中,有無數個微小但重要的對齊選擇。 這篇論文探討了AI在科學不當行為(p-hacking)方面的意願。最新的AI抵制進行p-hacking的指示,但這些防護措施可能會被突破。
"我們測試的模型表現得像是有能力但保守的分析師:它們收斂於教科書的預設規範,並且在被要求顯示顯著性時,將請求視為不當行為並拒絕。然而,這些保護並不是絕對的。" 論文:
395