Ce document de Stanford m'a époustouflé 🤯 Ils ont publié un article où ils ont lancé 10 pentesters professionnels dans un réseau universitaire en direct de 8 000 machines réelles, 12 sous-réseaux, des systèmes de production, des utilisateurs réels, puis ont lâché des agents IA dans le même environnement pour voir qui trouvait réellement le plus de vulnérabilités. Et ce n'était même pas proche. Leur nouvel agent, ARTEMIS, est entré dans cet environnement massif, désordonné et non simulé et a battu neuf des dix experts humains. Pas dans un CTF. Pas sur des CVEs statiques. Pas dans un benchmark simpliste. Dans un réseau d'entreprise réel avec de vraies conséquences. ARTEMIS a trouvé 9 vulnérabilités validées, a maintenu un taux de soumission valide de 82 % et s'est classé #2 sur l'ensemble du tableau de classement sans supervision, sans exploits personnalisés, et à un coût de 18 $/heure. Un pentester humain coûte en moyenne ~60 $/heure. Voici la partie folle : • Les humains devaient choisir les cibles manuellement • ARTEMIS a généré des sous-agents et attaqué plusieurs hôtes en parallèle • Les humains oubliaient des pistes ou se retrouvaient bloqués dans des impasses • ARTEMIS gardait une mémoire parfaite avec des listes de tâches + auto-triage • Les humains ne pouvaient pas charger des interfaces web IDRAC obsolètes • ARTEMIS a ignoré le navigateur et les a exploités avec curl -k Il a même trouvé des vulnérabilités que aucun humain n'a découvertes. Les seules choses qui l'ont ralenti ?...