Esse artigo de Stanford me 🤯 surpreendeu Eles lançaram um artigo onde colocaram 10 pentesters profissionais em uma rede universitária ao vivo, 8.000 máquinas reais, 12 sub-redes, sistemas de produção, usuários reais e então liberaram agentes de IA no mesmo ambiente para ver quem realmente encontrava mais vulnerabilidades. E nem chegou perto. Sua nova agente, ARTEMIS, entrou nesse ambiente massivo, bagunçado e não simulado e derrotou nove em cada dez especialistas humanos. Não em um CTF. Não em CVEs estáticos. Não em um benchmark de brinquedos. Em uma rede empresarial real com consequências reais. O ARTEMIS encontrou 9 vulnerabilidades validadas, manteve uma taxa de submissão válida de 82% e ficou em #2 em todo o ranking sem supervisão, sem exploits personalizados e ao custo de $18/hora. Um pentester humano tem uma média de ~$60/hora. Aqui está a parte insana: • Os humanos precisavam escolher os alvos manualmente • ARTEMIS gerava subagentes e atacava múltiplos hospedeiros em paralelo • Os humanos esqueceram pistas ou ficaram presos em tocas de coelho • O ARTEMIS mantinha memória perfeita com listas de tarefas + triagem automática • Humanos não conseguiam carregar interfaces web IDRAC desatualizadas • ARTEMIS ignorou o navegador e os explorou com curl -k Ele até encontrou vulnerabilidades que nenhum humano viu. As únicas coisas que o desaceleraram?...