¡Ganamos el primer lugar en la cumbre Berkeley AgentX en la categoría de benchmarks y evaluaciones! ¡Felicidades al equipo :)
Daniel Kang
Daniel Kang9 jul 2025
A medida que los agentes de IA se acercan al uso en el mundo real, ¿cómo sabemos lo que realmente pueden hacer? Los puntos de referencia confiables son críticos, ¡pero los puntos de referencia agentic están rotos! Ejemplo: WebArena marca "45+8 minutos" en una tarea de cálculo de duración como correcta (respuesta real: "63 minutos"). Otros puntos de referencia subestiman la competencia de los agentes entre un 1,6 y un 100%. ¿Por qué son frágiles los fundamentos de evaluación de los sistemas agénticos? Vea a continuación el hilo y los enlaces 1/8
1K