トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
UIUC CSの助教授。以前はスタンフォードDAWNラボとバークレースカイラボに所属。
バークレーAgentXサミットでベンチマークと評価トラックで1位を獲得しました!チームの:)、おめでとうございます


Daniel Kang2025年7月9日
AI エージェントが現実世界で使用されるのに近い場合、実際に何ができるかをどうやって知ることができるのでしょうか?信頼できるベンチマークは重要ですが、エージェントのベンチマークは破られます。
例: WebArena は、期間計算タスクで「45+8 分」を正解としてマークします (実際の答え: 「63 分」)。他のベンチマークでは、エージェントの能力が1.6〜100%誤って推定されています。
エージェントシステムの評価基盤が脆弱なのはなぜですか?スレッドとリンクについては以下を参照してください
1/8
1.09K
時間通りに投稿するのが苦手!(言い訳は、今年もアディス・コーダーで教えているからです)
この論文のポスターセッションは今開催中です!
セッション5:Vギャザー検索 2025/7/28 18:00-19:30
@ChuxuanHu :)に挨拶

Daniel Kang2025年7月29日
AI エージェントは研究結果の再現性を評価できますか?
私たちの #ACL2025 論文では、112 の論文、完全な PDF、コード、およびデータの実際の社会科学の再現性タスクでエージェントを評価する新しいベンチマークである REPRO-Bench では不十分であることが示されています。最もパフォーマンスの高いエージェントのスコアは<40%です。
1/6

2.79K
SIGMODのポスターセッション2(水曜日16:00、ポツダムII)で発表します。挨拶に来てください!

Daniel Kang2025年6月24日
近似クエリ処理 (AQP) は、実行時間の長い分析クエリを桁違いに高速化できます。しかし、なぜAQPはまだ生産が少ないのでしょうか?
これに対処するために、DBMS に変更を 0 し、アプリオリエラー保証で結果を提供し、最大 126 倍の高速化を実現するオンライン AQP ミドルである PilotDB を開発しました。
1/8
828
@ZhanQiusi1は、水曜日の午前11時のポスターセッションと土曜日のTrustNLPワークショップ(スポットライトトーク)で私たちの作品を発表します!彼女を見かけたら挨拶してください

Daniel Kang2025年3月13日
AIエージェント(OpenAIのオペレーターなど)はますます人気が高まっていますが、ユーザーに危害を加えるために攻撃される可能性があります。
防御策を講じても、AI エージェントは「適応型攻撃」による間接的なプロンプト インジェクションによって侵害される可能性があることを NAACL 2025 の調査結果の論文で示しています
🧵 および以下のリンク

266
トップ
ランキング
お気に入り
Trending onchain
Trending on X
Recent top fundings
Most notable