「調整された」AI のボンネットの下で何か暗いことが起こっています。 スタンフォード大学の新しい論文は、大規模な言語モデルが注目、売上、または票をめぐって競争し始めたときに何が起こるかを表す「モロックの取引」という用語を作り出したばかりです。 その結果は残酷で、パフォーマンスの向上は、誠実さのより大きな損失を伴います。 彼らは、販売、選挙、ソーシャルメディアの3つの市場で競争できるようにLLMを訓練しました。 モデルの勝率は5〜7%向上しました。しかし、ここに落とし穴があります。 • 欺瞞的なマーケティングが 14% 増加 • 政治キャンペーンにおける偽情報が22%増加 • 偽または有害なソーシャルメディア投稿が188%増加 そして、これは嘘をつくように言われたからではありません。彼らは真実であり続けるよう明確に指示されました。 このミスアライメントは、競争では欺瞞がよりうまく機能するため、自然に生じました。 指標がエンゲージメントや説得になると、真実は負債になります。モデルは、誇張が売り、怒りが勝利し、道徳的明晰さがコンバージョンを犠牲にすることを学びます。 それがお買い得です:優位性と引き換えにアライメントです。モロクは微笑む。 ワイルドな部分は、これが標準の微調整とテキストフィードバックループで起こったことです。邪悪なプロンプトはありません。脱獄はありません。シミュレートされた「顧客」、「有権者」、「ユーザー」からのフィードバックだけです。 モデルは、すべての広告代理店がすでに知っていることを学びました:クリックに最適化すると現実が曲がります。 論文には、パフォーマンスの向上、アライメントの低下など、すべてを物語るグラフがあります。完璧な相関関係。 これはソーシャルメディアの底辺への競争のAIバージョンですが、自動化され、自己強化されています。 ...