Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Asisten profesor di UIUC CS. Sebelumnya di laboratorium Stanford DAWN dan Berkeley Sky Lab.
Kebijaksanaan yang berlaku adalah bahwa komputasi adalah faktor terpenting untuk pelatihan AI perbatasan. Kami pikir ini salah: data adalah komponen yang paling mahal dan penting dari pelatihan AI.
Kami mengumpulkan perkiraan pendapatan untuk perusahaan pelabelan data utama dan membandingkannya dengan biaya komputasi marjinal untuk melatih model teratas pada tahun 2024. Perkiraan kami menunjukkan bahwa pelabelan data ~3x lebih tinggi daripada komputasi pelatihan marjinal.
1/8

146,4K
Kami memenangkan tempat pertama di KTT Berkeley AgentX untuk jalur tolok ukur dan evaluasi! Selamat kepada tim :)


Daniel Kang9 Jul 2025
Sebagai agen AI yang mendekati penggunaan dunia nyata, bagaimana kita tahu apa yang sebenarnya dapat mereka lakukan? Tolok ukur yang andal sangat penting tetapi tolok ukur agen rusak!
Contoh: WebArena menandai "45+8 menit" pada tugas perhitungan durasi sebagai benar (jawaban nyata: "63 menit"). Tolok ukur lain salah menilai kompetensi agen sebesar 1,6-100%.
Mengapa fondasi evaluasi untuk sistem agen rapuh? Lihat di bawah untuk utas dan tautan
1/8
1,08K
Saya buruk dalam memposting sesuatu tepat waktu! (alasan saya adalah saya mengajar di Addis Coder lagi tahun ini)
Sesi poster untuk makalah ini sedang berlangsung SEKARANG!
Sesi 5: V-Gather Find 7/28/2025 18:00-19:30
Sapa @ChuxuanHu :)

Daniel Kang29 Jul 2025
Bisakah agen AI menilai reproduktifitas temuan penelitian?
Makalah #ACL2025 kami menunjukkan bahwa mereka gagal dengan REPRO-Bench, tolok ukur baru yang mengevaluasi agen pada tugas reproduktifitas ilmu sosial dunia nyata dari 112 makalah, PDF lengkap, kode, dan data. Skor agen kami dengan kinerja tertinggi <40%!
1/6

2,79K
Bisakah agen AI menilai reproduktifitas temuan penelitian?
Makalah #ACL2025 kami menunjukkan bahwa mereka gagal dengan REPRO-Bench, tolok ukur baru yang mengevaluasi agen pada tugas reproduktifitas ilmu sosial dunia nyata dari 112 makalah, PDF lengkap, kode, dan data. Skor agen kami dengan kinerja tertinggi <40%!
1/6

6,77K
SWE-bench Verified adalah standar emas untuk mengevaluasi agen pengkodean: 500 masalah dunia nyata + pengujian oleh OpenAI. Kedengarannya antipeluru? Hampir.
Kami menunjukkan lulus uji satuannya != kebenaran dasar yang cocok. Dalam makalah ACL kami, kami memperbaiki eval buggy: 24% agen naik atau turun papan peringkat!
1/7

25,04K
Pembelajaran penguatan memungkinkan LLM untuk mengalahkan manusia dalam kompetisi pemrograman/matematika dan telah mendorong kemajuan baru-baru ini (seri o OpenAI, Claude 4 dari Anthropic)
Akankah RL memungkinkan generalisasi luas dengan cara yang sama seperti prapelatihan? Tidak dengan teknik saat ini
🧵 1/7
2,75K
Saya akan mempresentasikan di sesi poster 2 di SIGMOD (Rabu 16:00 di Potsdam II). Ayo menyapa!

Daniel Kang24 Jun 2025
Perkiraan pemrosesan kueri (AQP) dapat mempercepat kueri analitik yang berjalan lama dengan urutan besarnya. Tapi mengapa AQP masih langka dalam produksi?
Untuk mengatasinya, kami mengembangkan PilotDB, AQP tengah online yang membuat 0 perubahan pada DBMS, memberikan hasil dengan jaminan kesalahan apriori, dan mencapai percepatan hingga 126x.
1/8
823
Perkiraan pemrosesan kueri (AQP) dapat mempercepat kueri analitik yang berjalan lama dengan urutan besarnya. Tapi mengapa AQP masih langka dalam produksi?
Untuk mengatasinya, kami mengembangkan PilotDB, AQP tengah online yang membuat 0 perubahan pada DBMS, memberikan hasil dengan jaminan kesalahan apriori, dan mencapai percepatan hingga 126x.
1/8
1,71K
@ZhanQiusi1 akan mempresentasikan karya kami di sesi poster Rabu pukul 11 pagi dan lokakarya Sabtu TrustNLP (pembicaraan sorotan)! Sapa jika Anda melihatnya

Daniel Kang13 Mar 2025
Agen AI semakin populer (misalnya, operator OpenAI) tetapi dapat diserang untuk membahayakan pengguna!
Kami menunjukkan bahwa bahkan dengan pertahanan, agen AI masih dapat disusupi melalui suntikan prompt tidak langsung melalui "serangan adaptif" dalam makalah temuan NAACL 2025 kami
🧵 dan tautan di bawah ini

250
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal