Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Este artículo de Stanford me dejó boquiabierto 🤯
Publicaron un documento donde lanzaron a 10 pentesters profesionales en una red universitaria en vivo con 8,000 máquinas reales, 12 subredes, sistemas de producción, usuarios reales y luego desataron agentes de IA en el mismo entorno para ver quién realmente encontraba más vulnerabilidades.
Y ni siquiera estuvo cerca.
Su nuevo agente, ARTEMIS, entró en este enorme, desordenado y no simulado entorno y venció a nueve de cada diez expertos humanos.
No en un CTF.
No en CVEs estáticos.
No en un benchmark de juguete.
En una red empresarial real con consecuencias reales.
ARTEMIS encontró 9 vulnerabilidades validadas, mantuvo una tasa de envío válida del 82% y ocupó el puesto #2 en toda la tabla de clasificación sin supervisión, sin exploits personalizados y a un costo de $18/hora.
Un pentester humano promedia ~$60/hora.
Aquí está la parte loca:
• Los humanos tenían que elegir objetivos manualmente
• ARTEMIS generó sub-agentes y atacó múltiples hosts en paralelo
• Los humanos olvidaron pistas o se quedaron atrapados en agujeros de conejo
• ARTEMIS mantuvo una memoria perfecta con listas de tareas + auto-triage
• Los humanos no pudieron cargar interfaces web IDRAC desactualizadas
• ARTEMIS ignoró el navegador y las explotó con curl -k
Incluso encontró vulnerabilidades que ningún humano detectó.
¿Las únicas cosas que lo ralentizaron?
Exploits basados en GUI y una tasa de falsos positivos más alta.
¿Todo lo demás? Actuó como un equipo rojo completamente dotado con paciencia infinita y cero ego.
Este es el momento en que la seguridad ofensiva cambia para siempre:
La IA ya no solo está ayudando a los pentesters.
La IA ahora está compitiendo con ellos y, en algunos casos, superándolos.
Artículo: Comparando Agentes de IA con Profesionales de Ciberseguridad en Pruebas de Penetración del Mundo Real

56
🔥 No puedo creer que esto exista... alguien finalmente escribió el manual secreto que todas las startups de agentes de IA han estado fingiendo.
Un equipo de investigación acaba de lanzar "Una Guía Práctica para Diseñar, Desarrollar y Desplegar Flujos de Trabajo de IA Agente de Grado de Producción" y es básicamente el manual interno que la gente *piensa* que OpenAI y Anthropic utilizan.
No es hype.
No son diagramas con flechas lindas.
Es un verdadero plano de ingeniería para agentes que no colapsan en el momento en que sales del sandbox de demostración.
Aquí está lo que lo hace increíble 👇
1 / Comienzan exponiendo por qué la mayoría de los agentes implosionan
Nunca es el modelo.
Es el sistema que lo rodea:
• enrutamiento de herramientas no determinista
• fallos silenciosos de MCP
• agentes improvisando el orden de ejecución
• flujos de trabajo produciendo resultados diferentes en cada ejecución
Muestran trazas de fallos en bruto — registros reales de agentes fallando, haciendo bucles o alucinando herramientas.
Se lee como una autopsia de cada demostración de "empleado de IA autónomo".
2 / Reconstruyen toda la pila alrededor del determinismo
Cada llamada a la herramienta se convierte en una función tipada.
Cada camino de ejecución es reproducible.
Cada paso es determinista.
Si el sistema no puede producir la misma salida dos veces, no es de grado de producción.
Esta regla sola elimina la mitad del caos que la gente confunde con "emergencia".
3 / Hacen cumplir agentes de responsabilidad única
No hay mega-agente con 12 personalidades.
En su lugar:
• planificador
• agente de razonamiento
• ejecutor de herramientas
• validador
• sintetizador
Cada uno con límites estrictos.
Sin herramientas alucinadas.
Sin razonamiento de tareas mixtas.
Sin trabajo independiente.
Esto es ingeniería de backend, no juego de roles.
4 / Externan cada prompt como una configuración real
Los prompts ya no son cadenas ocultas — son:
• controlados por versiones
• auditables
• diferenciables
• recargables
Esto crea un comportamiento estable y previene regresiones invisibles.
5 / Ejecutan un consorcio de modelos con un adjudicador
GPT + Claude + Gemini no son intercambiables.
Son colaboradores.
Cada uno produce un borrador.
Un agente de razonamiento los fusiona, resuelve contradicciones y produce un resultado unificado.
Debate estructurado, no ruleta de modelos.
6 / Desacoplan el motor de flujo de trabajo de la capa MCP
Separan:
• orquestación
• acceso a herramientas
• reintentos
• verificaciones de salud
• escalado
• observabilidad
Resultado: un sistema de agentes que se comporta como microservicios, no como un macro de chat pegado con cinta.
7 / Luego prueban todo con un pipeline de producción real
Un sistema completo de noticias ➝ análisis ➝ guion ➝ razonamiento ➝ audio ➝ video ➝ PR de GitHub.
Diagramas completos.
Trazas completas.
Fallos reales.
Soluciones reales.
Es lo más cercano que este campo tiene a una arquitectura canónica para agentes que sobreviven a la carga del mundo real.
Si tu pila de agentes no tiene:
• flujos de trabajo deterministas
• responsabilidades aisladas
• prompts externalizados
• arbitraje multi-modelo
• infraestructura adecuada
• plena observabilidad
…no estás construyendo agentes.
Estás construyendo demostraciones.
Esta guía es el primer verdadero plano para sistemas de IA de producción y eleva el estándar para todos.

28,72K
Santo cielo… este documento podría ser el cambio más importante en cómo usamos los LLMs este año entero.
"Modelos Causales Grandes a partir de Modelos de Lenguaje Grandes."
Muestra que puedes desarrollar modelos causales completos directamente a partir de un LLM, no aproximaciones, no sensaciones, gráficos causales reales, contrafactuales, intervenciones y estructuras verificadas por restricciones.
Y la forma en que lo hacen es increíble:
En lugar de entrenar un modelo causal especializado, interrogan al LLM como un científico:
→ extraer un gráfico causal candidato del texto
→ pedir al modelo que verifique independencias condicionales
→ detectar contradicciones
→ revisar la estructura
→ probar contrafactuales y predicciones intervinientes
→ iterar hasta que el modelo causal se estabilice
El resultado es algo que nunca hemos tenido antes:
un sistema causal construido dentro del LLM utilizando su propio conocimiento latente del mundo.
A través de benchmarks sintéticos, del mundo real y dominios desordenados, estos LCMs superan a los métodos clásicos de descubrimiento causal porque aprovechan el enorme conocimiento previo del LLM en lugar de solo correlaciones locales.
¿Y el razonamiento contrafactual?
Sorprendentemente fuerte.
El modelo puede responder preguntas de "qué pasaría si" que los algoritmos estándar no pueden resolver, simplemente porque ya "sabe" cosas sobre el mundo que esos algoritmos no pueden inferir solo a partir de los datos.
Este documento insinúa un futuro donde los LLMs no son solo máquinas de patrones.
Se convierten en motores causales, sistemas que forman, prueban y refinan explicaciones estructurales de la realidad.
Si esto se escala, cada campo que depende de la inferencia causal, economía, medicina, política, ciencia, está a punto de ser reescrito.
Los LLMs no solo te dirán qué sucede.
Te dirán por qué.

42,23K
Parte superior
Clasificación
Favoritos
