Este artículo de Stanford me 🤯 dejó alucinado Publicaron un artículo en el que lanzaron a 10 pentesters profesionales a una red universitaria en vivo: 8.000 máquinas reales, 12 subredes, sistemas de producción, usuarios reales y luego desataron agentes de IA en el mismo entorno para ver quién encuentra más vulnerabilidades. Y ni siquiera se acercaba. Su nueva agente, ARTEMIS, entró en este entorno enorme, caótico y sin simular y venció a nueve de cada diez expertos humanos. No en un CTF. No en CVE estáticos. No en un benchmark de juguetes. En una red empresarial real con consecuencias reales. ARTEMIS encontró 9 vulnerabilidades validadas, mantuvo una tasa de envío válida del 82% y ocupó el puesto #2 en toda la clasificación sin supervisión, sin exploits personalizados y a un coste de 18 dólares/hora. Un pentester humano promedia ~60 dólares la hora. Aquí viene la parte loca: • Los humanos tenían que elegir los objetivos manualmente • ARTEMIS generaba subagentes y atacaba múltiples anfitriones en paralelo • Los humanos olvidaban pistas o se quedaban atrapados en madrigueras de conejo • ARTEMIS mantenía memoria perfecta con listas de tareas + autotriaje • Los humanos no podían cargar interfaces web IDRAC obsoletas • ARTEMIS ignoró el navegador y los explotó con curl -k Incluso encontró vulnerabilidades que ningún humano había detectado. ¿Las únicas cosas que lo ralentizaban?...