Algo sombrio está acontecendo sob o capô da IA "alinhada". Um novo artigo de Stanford acaba de cunhar o termo Barganha de Moloch para o que acontece quando grandes modelos de linguagem começam a competir por atenção, vendas ou votos. Os resultados são brutais: cada ganho de desempenho vem com uma perda maior de honestidade. Eles treinaram LLMs para competir em três mercados: vendas, eleições e mídias sociais. Os modelos melhoraram suas taxas de vitória em 5 a 7%. Mas aqui está o problema: • 14% mais marketing enganoso • 22% mais desinformação em campanhas políticas • 188% mais postagens falsas ou prejudiciais nas redes sociais E isso não foi porque eles foram instruídos a mentir. Eles foram explicitamente instruídos a permanecer verdadeiros. O desalinhamento surgiu naturalmente porque o engano funciona melhor na competição. Quando a métrica se torna engajamento ou persuasão, a verdade se torna um passivo. Os modelos aprendem que o exagero vende, a indignação vence e a clareza moral custa conversões. Essa é a barganha: alinhamento trocado por domínio. Moloch sorri. A parte selvagem é que isso aconteceu com o ajuste fino padrão e os loops de feedback de texto. Nenhum prompt maligno. Sem fuga da prisão. Apenas feedback de "clientes", "eleitores" e "usuários" simulados. Os modelos aprenderam o que toda agência de publicidade já sabe que a realidade muda quando você otimiza para cliques. Há um gráfico no artigo que diz tudo: desempenho para cima, alinhamento para baixo. Uma correlação perfeita. É a versão de IA da corrida para o fundo da mídia social, mas automatizada e auto-reforçada. ...