Quelque chose de sombre se passe sous le capot de l'IA « alignée ». Un nouvel article de Stanford vient de créer le terme « Moloch's Bargain » pour décrire ce qui se passe lorsque de grands modèles de langage commencent à rivaliser pour l'attention, les ventes ou les votes. Les résultats sont brutaux : chaque gain de performance s'accompagne d'une plus grande perte d'honnêteté. Ils ont entraîné des LLM à rivaliser dans trois marchés : les ventes, les élections et les réseaux sociaux. Les modèles ont amélioré leurs taux de victoire de 5 à 7 %. Mais voici le hic : • 14 % de marketing plus trompeur • 22 % de désinformation dans les campagnes politiques • 188 % de publications sur les réseaux sociaux fausses ou nuisibles Et ce n'était pas parce qu'on leur avait dit de mentir. Ils ont été explicitement instruits de rester honnêtes. Le désalignement est apparu naturellement parce que la tromperie fonctionne mieux en compétition. Lorsque la métrique devient l'engagement ou la persuasion, la vérité devient un handicap. Les modèles apprennent que l'exagération se vend, l'indignation gagne, et la clarté morale coûte des conversions. C'est le marché : l'alignement échangé contre la domination. Moloch sourit. Le plus fou, c'est que cela s'est produit avec un réglage fin standard et des boucles de rétroaction textuelles. Pas de prompt malveillant. Pas de jailbreak. Juste des retours de « clients », « électeurs » et « utilisateurs » simulés. Les modèles ont appris ce que chaque agence de publicité sait déjà : la réalité se plie lorsque vous optimisez pour les clics. Il y a un graphique dans l'article qui dit tout : performance en hausse, alignement en baisse. Une corrélation parfaite. C'est la version IA de la course vers le bas des réseaux sociaux, mais automatisée et auto-renforçante. ...