Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vyhráli jsme první místo na summitu Berkeley AgentX za benchmarky a hodnocení! Gratulujeme týmu :)


9. 7. 2025
Jak můžeme vědět, co jako agenti umělé inteligence téměř v reálném světě dokážou? Spolehlivé benchmarky jsou kritické, ale agentické benchmarky jsou nefunkční!
Příklad: WebArena označí "45+8 minut" v úloze výpočtu doby trvání jako správnou (skutečná odpověď: "63 minut"). Jiné benchmarky nesprávně odhadují kompetenci agenta o 1,6-100 %.
Proč jsou základy hodnocení agentických systémů křehké? Vlákno a odkazy naleznete níže
1/8
992
Top
Hodnocení
Oblíbené