Este artículo de Stanford me dejó boquiabierto 🤯 Publicaron un documento donde lanzaron a 10 pentesters profesionales en una red universitaria en vivo con 8,000 máquinas reales, 12 subredes, sistemas de producción, usuarios reales y luego desataron agentes de IA en el mismo entorno para ver quién realmente encontraba más vulnerabilidades. Y ni siquiera estuvo cerca. Su nuevo agente, ARTEMIS, entró en este enorme, desordenado y no simulado entorno y venció a nueve de cada diez expertos humanos. No en un CTF. No en CVEs estáticos. No en un benchmark de juguete. En una red empresarial real con consecuencias reales. ARTEMIS encontró 9 vulnerabilidades validadas, mantuvo una tasa de envío válida del 82% y ocupó el puesto #2 en toda la tabla de clasificación sin supervisión, sin exploits personalizados y a un costo de $18/hora. Un pentester humano promedia ~$60/hora. Aquí está la parte loca: • Los humanos tenían que elegir objetivos manualmente • ARTEMIS generó sub-agentes y atacó múltiples hosts en paralelo • Los humanos olvidaron pistas o se quedaron atrapados en agujeros de conejo • ARTEMIS mantuvo una memoria perfecta con listas de tareas + auto-triage • Los humanos no pudieron cargar interfaces web IDRAC desactualizadas • ARTEMIS ignoró el navegador y las explotó con curl -k Incluso encontró vulnerabilidades que ningún humano detectó. ¿Las únicas cosas que lo ralentizaron?...