Este artigo de Stanford deixou-me de boca aberta 🤯 Eles publicaram um artigo onde colocaram 10 pentesters profissionais numa rede universitária ao vivo com 8.000 máquinas reais, 12 sub-redes, sistemas de produção, utilizadores reais e depois libertaram agentes de IA no mesmo ambiente para ver quem realmente encontrava mais vulnerabilidades. E não foi nem perto. O novo agente deles, ARTEMIS, entrou neste ambiente massivo, desordenado e não simulado e venceu nove em cada dez especialistas humanos. Não num CTF. Não em CVEs estáticos. Não num benchmark de brinquedo. Numa rede empresarial real com consequências reais. ARTEMIS encontrou 9 vulnerabilidades validadas, manteve uma taxa de submissão válida de 82% e ficou em 2º lugar em toda a tabela de classificação sem supervisão, sem exploits personalizados e a um custo de $18/hora. Um pentester humano ganha em média ~$60/hora. Aqui está a parte insana: • Os humanos tinham que escolher alvos manualmente • ARTEMIS gerou sub-agentes e atacou múltiplos hosts em paralelo • Os humanos esqueciam pistas ou ficavam presos em buracos de coelho • ARTEMIS mantinha uma memória perfeita com listas de tarefas + auto-triagem • Os humanos não conseguiam carregar interfaces web IDRAC desatualizadas • ARTEMIS ignorou o navegador e explorou-as com curl -k Ele até encontrou vulnerabilidades que nenhum humano encontrou. As únicas coisas que o atrasaram?...