DApp Store | Pusat Web3 untuk Event & Game

Explore the Momentum ecosystem and earn $1.015M in rewards

Topik trending

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-2,53%

Boopa+0,27%

PORK-11,01%

Daniel Kang

Asisten profesor di UIUC CS. Sebelumnya di laboratorium Stanford DAWN dan Berkeley Sky Lab.

Daniel Kang12 Agu, 01.27

Kebijaksanaan yang berlaku adalah bahwa komputasi adalah faktor terpenting untuk pelatihan AI perbatasan. Kami pikir ini salah: data adalah komponen yang paling mahal dan penting dari pelatihan AI. Kami mengumpulkan perkiraan pendapatan untuk perusahaan pelabelan data utama dan membandingkannya dengan biaya komputasi marjinal untuk melatih model teratas pada tahun 2024. Perkiraan kami menunjukkan bahwa pelabelan data ~3x lebih tinggi daripada komputasi pelatihan marjinal. 1/8

146,4K

Daniel Kang5 Agu, 05.23

Kami memenangkan tempat pertama di KTT Berkeley AgentX untuk jalur tolok ukur dan evaluasi! Selamat kepada tim :)

Daniel Kang9 Jul 2025

Sebagai agen AI yang mendekati penggunaan dunia nyata, bagaimana kita tahu apa yang sebenarnya dapat mereka lakukan? Tolok ukur yang andal sangat penting tetapi tolok ukur agen rusak! Contoh: WebArena menandai "45+8 menit" pada tugas perhitungan durasi sebagai benar (jawaban nyata: "63 menit"). Tolok ukur lain salah menilai kompetensi agen sebesar 1,6-100%. Mengapa fondasi evaluasi untuk sistem agen rapuh? Lihat di bawah untuk utas dan tautan 1/8

1,08K

Daniel Kang29 Jul 2025

Saya buruk dalam memposting sesuatu tepat waktu! (alasan saya adalah saya mengajar di Addis Coder lagi tahun ini) Sesi poster untuk makalah ini sedang berlangsung SEKARANG! Sesi 5: V-Gather Find 7/28/2025 18:00-19:30 Sapa @ChuxuanHu :)

Daniel Kang29 Jul 2025

Bisakah agen AI menilai reproduktifitas temuan penelitian? Makalah #ACL2025 kami menunjukkan bahwa mereka gagal dengan REPRO-Bench, tolok ukur baru yang mengevaluasi agen pada tugas reproduktifitas ilmu sosial dunia nyata dari 112 makalah, PDF lengkap, kode, dan data. Skor agen kami dengan kinerja tertinggi <40%! 1/6

2,79K

Daniel Kang29 Jul 2025

6,77K

Daniel Kang23 Jul 2025

SWE-bench Verified adalah standar emas untuk mengevaluasi agen pengkodean: 500 masalah dunia nyata + pengujian oleh OpenAI. Kedengarannya antipeluru? Hampir. Kami menunjukkan lulus uji satuannya != kebenaran dasar yang cocok. Dalam makalah ACL kami, kami memperbaiki eval buggy: 24% agen naik atau turun papan peringkat! 1/7

25,04K

Daniel Kang26 Jun 2025

Pembelajaran penguatan memungkinkan LLM untuk mengalahkan manusia dalam kompetisi pemrograman/matematika dan telah mendorong kemajuan baru-baru ini (seri o OpenAI, Claude 4 dari Anthropic) Akankah RL memungkinkan generalisasi luas dengan cara yang sama seperti prapelatihan? Tidak dengan teknik saat ini 🧵 1/7

2,75K

Daniel Kang24 Jun 2025

Saya akan mempresentasikan di sesi poster 2 di SIGMOD (Rabu 16:00 di Potsdam II). Ayo menyapa!

Daniel Kang24 Jun 2025

Perkiraan pemrosesan kueri (AQP) dapat mempercepat kueri analitik yang berjalan lama dengan urutan besarnya. Tapi mengapa AQP masih langka dalam produksi? Untuk mengatasinya, kami mengembangkan PilotDB, AQP tengah online yang membuat 0 perubahan pada DBMS, memberikan hasil dengan jaminan kesalahan apriori, dan mencapai percepatan hingga 126x. 1/8

823

Daniel Kang24 Jun 2025

1,71K

Daniel Kang29 Apr 2025

@ZhanQiusi1 akan mempresentasikan karya kami di sesi poster Rabu pukul 11 pagi dan lokakarya Sabtu TrustNLP (pembicaraan sorotan)! Sapa jika Anda melihatnya

Daniel Kang13 Mar 2025

Agen AI semakin populer (misalnya, operator OpenAI) tetapi dapat diserang untuk membahayakan pengguna! Kami menunjukkan bahwa bahkan dengan pertahanan, agen AI masih dapat disusupi melalui suntikan prompt tidak langsung melalui "serangan adaptif" dalam makalah temuan NAACL 2025 kami 🧵 dan tautan di bawah ini

250

Daniel Kang20 Apr 2025

Saya akan berada di #ICLR2025 tahun ini! Akan memberikan ceramah di Lokakarya Penyelarasan dan sesi panel di ML Safety Social. Sapa jika Anda melihat saya

766

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal