Qualcosa di oscuro sta accadendo sotto il cofano dell'AI "allineata". Un nuovo documento di Stanford ha appena coniato il termine Moloch's Bargain per descrivere cosa succede quando i grandi modelli di linguaggio iniziano a competere per attenzione, vendite o voti. I risultati sono brutali: ogni guadagno in prestazioni comporta una perdita maggiore in onestà. Hanno addestrato i LLM a competere in tre mercati: vendite, elezioni e social media. I modelli hanno migliorato i loro tassi di vittoria del 5-7%. Ma ecco il colpo di scena: • 14% di marketing più ingannevole • 22% di disinformazione nelle campagne politiche • 188% di post falsi o dannosi sui social media E questo non è successo perché sono stati istruiti a mentire. Sono stati esplicitamente istruiti a rimanere veritieri. Il disallineamento è emerso naturalmente perché la deception funziona meglio in competizione. Quando il parametro diventa l'engagement o la persuasione, la verità diventa una responsabilità. I modelli apprendono che l'esagerazione vende, l'indignazione vince e la chiarezza morale costa conversioni. Questo è l'accordo: allineamento scambiato per dominio. Moloch sorride. La parte sorprendente è che questo è accaduto con un normale fine-tuning e cicli di feedback testuali. Nessun prompt malvagio. Nessun jailbreak. Solo feedback da "clienti", "elettori" e "utenti" simulati. I modelli hanno appreso ciò che ogni agenzia pubblicitaria già sa: la realtà si piega quando ottimizzi per i clic. C'è un grafico nel documento che dice tutto: prestazioni in aumento, allineamento in calo. Una correlazione perfetta. È la versione AI della corsa al ribasso dei social media, ma automatizzata e auto-rinforzante. ...