一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

探索 Web3 Giveaway 活动，每周丰厚奖励等您来领取

热门话题

Bonk 生态迷因币展现强韧势头

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

Solana 新代币发射平台 Boop.Fun 风头正劲

BOOP+1.24%

Boopa+12.36%

PORK-2.46%

Daniel Kang

UIUC CS 助理教授。曾在斯坦福 DAWN 实验室和伯克利天空实验室工作。

Daniel Kang8月27日 01:33

预测：未来24个月的婚礼数量将大大高于过去24个月的数量。

969

Daniel Kang8月12日 01:27

普遍的观点是，计算能力是前沿人工智能训练中最重要的因素。我们认为这是错误的：数据是人工智能训练中最昂贵和最重要的组成部分。我们收集了主要数据标注公司的收入估计，并将其与2024年顶级模型训练的边际计算成本进行了比较。我们的估计显示，数据标注的成本约为边际训练计算成本的3倍。 1/8

146.42K

Daniel Kang8月5日 05:23

我们在伯克利AgentX峰会上获得了基准和评估赛道的第一名！祝贺团队 :)

Daniel Kang2025年7月9日

随着人工智能代理接近实际应用，我们如何知道它们实际上能做什么？可靠的基准测试至关重要，但代理基准测试却存在问题！例如：WebArena在一个持续时间计算任务上将"45+8分钟"标记为正确（真实答案是："63分钟"）。其他基准测试对代理能力的估计误差在1.6%-100%之间。为什么代理系统的评估基础如此脆弱？请参见下面的线程和链接 1/8

1.1K

Daniel Kang2025年7月29日

我不擅长按时发布东西！(我的借口是我今年又在阿迪斯编程学院教书) 这篇论文的海报展示正在进行中！会议5：V-Gather 找到 2025年7月28日 18:00-19:30 向 @ChuxuanHu 打个招呼 :)

Daniel Kang2025年7月29日

Can AI agents assess the reproducibility of research findings? Our #ACL2025 paper shows that they fall short with REPRO-Bench, a new benchmark that evaluates agents on real-world social science reproducibility tasks of 112 papers, full PDFs, code, and data. Our highest performing agent scores <40%! 1/6

2.8K

Daniel Kang2025年7月29日

AI代理能评估研究结果的可重复性吗？我们的#ACL2025论文表明，它们在REPRO-Bench上表现不佳，这是一个新的基准，评估代理在112篇论文的真实社会科学可重复性任务中的表现，包括完整的PDF、代码和数据。我们表现最好的代理得分不到40%！ 1/6

6.79K

Daniel Kang2025年7月23日

SWE-bench Verified 是评估编码代理的黄金标准：500 个真实世界问题 + OpenAI 的测试。听起来无懈可击？其实并非如此。我们展示了通过单元测试并不等于与真实结果相匹配。在我们的 ACL 论文中，我们修复了有缺陷的评估：24% 的代理在排行榜上上升或下降了！ 1/7

25.06K

Daniel Kang2025年6月26日

强化学习使得大型语言模型在编程/数学竞赛中超越人类，并推动了最近的进展（OpenAI 的 o 系列，Anthropic 的 Claude 4）强化学习能否像预训练那样实现广泛的泛化？目前的技术无法做到 🧵 1/7

2.79K

Daniel Kang2025年6月24日

我将在 SIGMOD 的海报会议 2 上发表演讲（周三 16：00 在波茨坦 II）。快来打个招呼吧！

Daniel Kang2025年6月24日

Approximate query processing (AQP) can accelerate long-running analytical queries by orders of magnitude. But why is AQP still rare in production? To address it, we develop PilotDB, an online AQP middle that makes 0 changes to DBMSs, delivers results with a priori error guarantees, and achieves up to 126x speedup. 1/8

836

Daniel Kang2025年6月24日

近似查询处理（AQP）可以将长时间运行的分析查询加速几个数量级。但为什么 AQP 在生产中仍然很少见？为了解决这个问题，我们开发了 PilotDB，这是一个在线 AQP 中间，它对 DBMS 进行 0 次更改，提供具有先验误差保证的结果，并实现高达 126 倍的加速。 1/8

1.72K

Daniel Kang2025年4月29日

@ZhanQiusi1 将在周三上午11点的海报展示环节以及周六的TrustNLP研讨会（重点演讲）中展示我们的工作！如果看到她，请打个招呼。

Daniel Kang2025年3月13日

AI代理越来越受欢迎（例如，OpenAI的运营商），但可能会被攻击以伤害用户！我们在NAACL 2025研究论文中展示了即使有防御措施，AI代理仍然可以通过“自适应攻击”间接提示注入而被妥协。 🧵和链接如下

275