热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Daniel Kang
UIUC CS 助理教授。曾在斯坦福 DAWN 实验室和伯克利天空实验室工作。
我们在伯克利AgentX峰会上获得了基准和评估赛道的第一名!祝贺团队 :)


Daniel Kang2025年7月9日
随着人工智能代理接近实际应用,我们如何知道它们实际上能做什么?可靠的基准测试至关重要,但代理基准测试却存在问题!
例如:WebArena在一个持续时间计算任务上将"45+8分钟"标记为正确(真实答案是:"63分钟")。其他基准测试对代理能力的估计误差在1.6%-100%之间。
为什么代理系统的评估基础如此脆弱?请参见下面的线程和链接
1/8
1.1K
我不擅长按时发布东西!(我的借口是我今年又在阿迪斯编程学院教书)
这篇论文的海报展示正在进行中!
会议5:V-Gather 找到 2025年7月28日 18:00-19:30
向 @ChuxuanHu 打个招呼 :)

Daniel Kang2025年7月29日
Can AI agents assess the reproducibility of research findings?
Our #ACL2025 paper shows that they fall short with REPRO-Bench, a new benchmark that evaluates agents on real-world social science reproducibility tasks of 112 papers, full PDFs, code, and data. Our highest performing agent scores <40%!
1/6

2.8K
我将在 SIGMOD 的海报会议 2 上发表演讲(周三 16:00 在波茨坦 II)。快来打个招呼吧!

Daniel Kang2025年6月24日
Approximate query processing (AQP) can accelerate long-running analytical queries by orders of magnitude. But why is AQP still rare in production?
To address it, we develop PilotDB, an online AQP middle that makes 0 changes to DBMSs, delivers results with a priori error guarantees, and achieves up to 126x speedup.
1/8
836
@ZhanQiusi1 将在周三上午11点的海报展示环节以及周六的TrustNLP研讨会(重点演讲)中展示我们的工作!如果看到她,请打个招呼。

Daniel Kang2025年3月13日
AI代理越来越受欢迎(例如,OpenAI的运营商),但可能会被攻击以伤害用户!
我们在NAACL 2025研究论文中展示了即使有防御措施,AI代理仍然可以通过“自适应攻击”间接提示注入而被妥协。
🧵和链接如下

275
热门
排行
收藏