Acest articol de la Stanford m-a 🤯 uimit Au lansat un articol în care au introdus 10 pentesteri profesioniști într-o rețea universitară live, 8.000 de mașini reale, 12 subrețele, sisteme de producție, utilizatori reali și apoi au eliberat agenți AI în același mediu pentru a vedea cine găsește cu adevărat mai multe vulnerabilități. Și nici măcar nu a fost aproape. Noul lor agent, ARTEMIS, a pășit în acest mediu masiv, dezordonat și nesimulat și a învins nouă din zece experți umani. Nu într-un CTF. Nu pe CVE-uri statice. Nu într-un benchmark pentru jucării. Într-o rețea reală de întreprindere, cu consecințe reale. ARTEMIS a găsit 9 vulnerabilități validate, a menținut o rată validă de trimitere de 82% și s-a clasat pe locul #2 pe întregul clasament fără supraveghere, fără exploit-uri personalizate și la un cost de 18$/oră. Un pentester uman câștigă în medie ~60$/oră. Iată partea nebună: • Oamenii trebuiau să aleagă țintele manual • ARTEMIS genera sub-agenți și ataca mai multe gazde în paralel • Oamenii uitau piste sau rămâneau blocați în vizuini de iepure • ARTEMIS păstra memorie perfectă cu liste de lucruri de făcut + auto-triaj • Oamenii nu puteau încărca interfețe web IDRAC învechite • ARTEMIS a ignorat browserul și l-a exploatat cu curl -k A găsit chiar și vulnerabilități pe care niciun om nu le-a găsit. Singurele lucruri care au încetinit-o?...