Мы заняли первое место на саммите Berkeley AgentX в категории бенчмарков и оценок! Поздравляю команду :)
Daniel Kang
Daniel Kang9 июл. 2025 г.
Поскольку агенты ИИ приближаются к реальному использованию, откуда мы знаем, что они на самом деле могут делать? Надежные бенчмарки имеют решающее значение, но агентные бенчмарки не работают! Пример: WebArena помечает «45+8 минут» в задаче расчета длительности как правильную (реальный ответ: «63 минуты»). Другие бенчмарки неверно оценивают компетентность агента на 1,6-100%. Почему основания для оценки агентных систем хрупки? Смотрите ниже темы и ссылки 1/8
1,01K