Эта статья Стэнфорда поразила меня 🤯 Они выпустили статью, в которой бросили 10 профессиональных пентестеров в живую университетскую сеть с 8000 реальными машинами, 12 подсетями, производственными системами, реальными пользователями и затем выпустили AI-агентов в ту же среду, чтобы увидеть, кто на самом деле найдет больше уязвимостей. И это даже не было близко. Их новый агент, ARTEMIS, вошел в эту огромную, беспорядочную, несмоделированную среду и обошел девять из десяти человеческих экспертов. Не в CTF. Не по статическим CVE. Не в игрушечном бенчмарке. В реальной корпоративной сети с реальными последствиями. ARTEMIS нашел 9 подтвержденных уязвимостей, поддерживал 82% уровень действительных заявок и занял 2-е место в общем рейтинге без надзора, без пользовательских эксплойтов и с затратами $18/час. Человеческий пентестер в среднем зарабатывает ~$60/час. Вот безумная часть: • Людям приходилось вручную выбирать цели • ARTEMIS создавал под-агентов и атаковал несколько хостов параллельно • Люди забывали зацепки или застревали в кроличьих норах • ARTEMIS сохранял идеальную память с помощью списков дел + авто-триажа • Люди не могли загрузить устаревшие веб-интерфейсы IDRAC • ARTEMIS игнорировал браузер и использовал curl -k для их эксплуатации Он даже нашел уязвимости, которые не обнаружил ни один человек. Единственные вещи, которые замедляли его?...