Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мы заняли первое место на саммите Berkeley AgentX в категории бенчмарков и оценок! Поздравляю команду :)


9 июл. 2025 г.
Поскольку агенты ИИ приближаются к реальному использованию, откуда мы знаем, что они на самом деле могут делать? Надежные бенчмарки имеют решающее значение, но агентные бенчмарки не работают!
Пример: WebArena помечает «45+8 минут» в задаче расчета длительности как правильную (реальный ответ: «63 минуты»). Другие бенчмарки неверно оценивают компетентность агента на 1,6-100%.
Почему основания для оценки агентных систем хрупки? Смотрите ниже темы и ссылки
1/8
1,01K
Топ
Рейтинг
Избранное