Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми посіли перше місце на саміті Berkeley AgentX за трек бенчмарків та оцінок! Вітаємо колектив :)


9 лип. 2025 р.
Як ми знаємо, що вони насправді можуть робити, як агенти штучного інтелекту майже використовують у реальному світі? Надійні орієнтири мають вирішальне значення, але агентичні орієнтири зламані!
Приклад: WebArena оцінює «45+8 хвилин» у завданні на розрахунок тривалості як правильну (реальна відповідь: «63 хвилини»). Інші бенчмарки неправильно оцінюють компетентність агента на 1,6-100%.
Чому основи оцінки агентних систем є крихкими? Нижче наведено теми та посилання
1/8
996
Найкращі
Рейтинг
Вибране