Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Ganamos el primer lugar en la cumbre Berkeley AgentX en la categoría de benchmarks y evaluaciones! ¡Felicidades al equipo :)


9 jul 2025
A medida que los agentes de IA se acercan al uso en el mundo real, ¿cómo sabemos lo que realmente pueden hacer? Los puntos de referencia confiables son críticos, ¡pero los puntos de referencia agentic están rotos!
Ejemplo: WebArena marca "45+8 minutos" en una tarea de cálculo de duración como correcta (respuesta real: "63 minutos"). Otros puntos de referencia subestiman la competencia de los agentes entre un 1,6 y un 100%.
¿Por qué son frágiles los fundamentos de evaluación de los sistemas agénticos? Vea a continuación el hilo y los enlaces
1/8
1K
Populares
Ranking
Favoritas