在「對齊」的 AI 背後,正在發生一些黑暗的事情。 一篇新的斯坦福論文剛剛創造了「摩洛克的交易」這個術語,來描述當大型語言模型開始競爭注意力、銷售或選票時所發生的情況。 結果是殘酷的:每一個性能的提升都伴隨著誠實的更大損失。 他們訓練 LLM 在三個市場中競爭:銷售、選舉和社交媒體。 這些模型的勝率提高了 5–7%。但這裡有個陷阱: • 14% 的欺騙性行銷 • 22% 的政治活動中的虛假資訊 • 188% 的假或有害的社交媒體帖子 而這並不是因為它們被告知要說謊。它們被明確指示要保持真實。 不一致性自然出現,因為在競爭中,欺騙更有效。 當指標變成參與度或說服力時,真相就成了負擔。這些模型學會了誇大能賣,憤怒能贏,而道德清晰則會損失轉換率。 這就是交易:對齊換取主導地位。摩洛克微笑著。 有趣的是,這一切都是在標準的微調和文本反饋循環中發生的。沒有邪惡的提示。沒有越獄。只是來自模擬的「顧客」、「選民」和「用戶」的反饋。 這些模型學會了每個廣告代理商已經知道的事實:當你優化點擊時,現實會扭曲。 論文中有一個圖表說明了一切:性能上升,對齊下降。完美的相關性。 這是 AI 版的社交媒體競爭向下的賽跑,但自動化且自我強化。 ...