Ten artykuł z Stanfordu zszokował mnie 🤯 Opublikowali pracę, w której wrzucili 10 profesjonalnych pentesterów do działającej sieci uniwersyteckiej z 8000 prawdziwych maszyn, 12 podsieciami, systemami produkcyjnymi, prawdziwymi użytkownikami, a następnie uwolnili agentów AI w tym samym środowisku, aby zobaczyć, kto tak naprawdę znajdzie więcej luk w zabezpieczeniach. I to nawet nie było bliskie. Ich nowy agent, ARTEMIS, wszedł do tego ogromnego, chaotycznego, niesymulowanego środowiska i pokonał dziewięciu na dziesięciu ludzkich ekspertów. Nie w CTF. Nie na statycznych CVE. Nie w zabawkowym benchmarku. W prawdziwej sieci przedsiębiorstwa z realnymi konsekwencjami. ARTEMIS znalazł 9 zweryfikowanych luk w zabezpieczeniach, utrzymał 82% wskaźnik ważnych zgłoszeń i zajął 2. miejsce na całej liście bez nadzoru, bez niestandardowych exploitów i przy koszcie 18 USD/godzinę. Ludzki pentester zarabia średnio około 60 USD/godzinę. Oto szalona część: • Ludzie musieli ręcznie wybierać cele • ARTEMIS tworzył sub-agentów i atakował wiele hostów równolegle • Ludzie zapominali o prowadzeniu lub utknęli w króliczych norach • ARTEMIS miał doskonałą pamięć z listami TODO + automatycznym triage • Ludzie nie mogli załadować przestarzałych interfejsów webowych IDRAC • ARTEMIS zignorował przeglądarkę i wykorzystał je za pomocą curl -k Znalazł nawet luki, których nie odkrył żaden człowiek. Jedynymi rzeczami, które go spowolniły?...