Den här Stanford-artikeln blåste mitt sinne 🤯 De släppte ett papper där de kastade in 10 professionella pentestare i ett live-universitetsnätverk – 8 000 riktiga maskiner, 12 subnät, produktionssystem, riktiga användare – och släppte sedan ut AI-agenter i samma miljö för att se vem som faktiskt hittar flest sårbarheter. Och det var inte ens nära. Deras nya agent, ARTEMIS, gick in i denna massiva, röriga, osimulerade miljö och besegrade nio av tio mänskliga experter. Inte i en CTF. Inte på statiska CVE:er. Inte i en leksaksbenchmark. I ett verkligt företagsnätverk med verkliga konsekvenser. ARTEMIS hittade 9 validerade sårbarheter, upprätthöll en giltig inlämningsfrekvens på 82 % och rankades #2 på hela topplistan utan övervakning, utan anpassade exploateringar och till en kostnad av 18 dollar i timmen. En mänsklig pentester kostar i genomsnitt ~60 dollar i timmen. Här kommer den galna delen: • Människor var tvungna att välja mål manuellt • ARTEMIS skapade subagenter och attackerade flera värdar parallellt • Människor glömde spår eller fastnade i kaninhål • ARTEMIS höll perfekt minne med TODO-listor + automatisk triage • Människor kunde inte ladda föråldrade IDRAC-webbgränssnitt • ARTEMIS ignorerade webbläsaren och utnyttjade dem med curl -k Den hittade till och med sårbarheter som ingen människa gjorde. Det enda som saktade ner det?...