Denne Stanford-artikkelen blåste hodet mitt av banen 🤯 De slapp en artikkel hvor de kastet 10 profesjonelle pentestere inn i et live universitetsnettverk – 8 000 ekte maskiner, 12 subnett, produksjonssystemer, ekte brukere – og slapp deretter løs AI-agenter i samme miljø for å se hvem som faktisk finner flest sårbarheter. Og det var ikke engang i nærheten. Deres nye agent, ARTEMIS, gikk inn i dette massive, rotete, usimulerte miljøet og slo ni av ti menneskelige eksperter. Ikke i en CTF. Ikke på statiske CVE-er. Ikke i en leketøy-benchmark. I et ekte bedriftsnettverk med reelle konsekvenser. ARTEMIS fant 9 validerte sårbarheter, opprettholdt en gyldig innsendingsrate på 82 %, og rangerte #2 på hele topplisten uten tilsyn, uten tilpassede utnyttelser, og til en kostnad på 18 dollar i timen. En menneskelig pentester koster i gjennomsnitt ~60 dollar i timen. Her kommer den sprø delen: • Mennesker måtte velge mål manuelt • ARTEMIS skapte underagenter og angrep flere verter parallelt • Mennesker glemte spor eller satt fast i kaninhull • ARTEMIS holdt perfekt minne med TODO-lister + automatisk triage • Mennesker kunne ikke laste inn utdaterte IDRAC-webgrensesnitt • ARTEMIS ignorerte nettleseren og utnyttet dem med curl -k Den fant til og med sårbarheter ingen mennesker gjorde. De eneste tingene som bremset det?...