Mohou agenti umělé inteligence posoudit reprodukovatelnost výsledků výzkumu? Náš #ACL2025 článek ukazuje, že zaostávají za REPRO-Bench, novým benchmarkem, který hodnotí agenty v reálných úlohách reprodukovatelnosti společenských věd ze 112 článků, plných PDF, kódu a dat. Náš nejvýkonnější agent má skóre <40 %! 1/6
Odkazy zde a vlákno níže: Papír: Kód: Dílčí zásobník: Středně: 2/6
REPRO-Bench se skládá ze 112 instancí úloh, z nichž každá je vytvořena na základě reálných snah o reprodukovatelnost pocházejících z projektů hromadné reprodukce, I4R, Retraction Watch a pokusů o reprodukovatelnost zveřejněných na Twitteru/X. Každý úkol obsahuje papírové PDF, reprodukční kód a data a seznam hlavních zjištění. 3/6
Hodnotíme 3 oblíbené agenty na REPRO-Bench. Nejvýkonnější agent, CORE-Agent, dosahuje přesnosti pouze 21,4 %, což je méně než náhodné odhadování (25 %). 4/6
Představujeme REPRO-Agent, vylepšený prostředek založený na naší analýze poruch. S pouhými čtyřmi dalšími instrukcemi REPRO-Agent zvyšuje přesnost na 36,6 %, což je 71% relativní zlepšení oproti CORE-Agent, při zachování srovnatelných nákladů. 5/6
Tato práce je společná s @ChuxuanHu, Austinem Petersem a dalšími. 6/6
6,72K