Eu sou ruim em postar as coisas na hora! (minha desculpa é que estou ensinando no Addis Coder novamente este ano) A sessão de pôsteres para este artigo está acontecendo AGORA! Sessão 5: V-Gather Find 28/07/2025 18:00-19:30 Diga oi para @ChuxuanHu :)
Daniel Kang
Daniel Kang29 de jul. de 2025
Os agentes de IA podem avaliar a reprodutibilidade dos resultados da pesquisa? Nosso artigo #ACL2025 mostra que eles ficam aquém do REPRO-Bench, um novo benchmark que avalia os agentes em tarefas de reprodutibilidade de ciências sociais do mundo real de 112 artigos, PDFs completos, código e dados. Nosso agente de melhor desempenho pontua <40%! 1/6
2,79K