Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Saya tidak tahu apa arti «domain» atau «dalam distribusi» lagi. Jelas LLM menggeneralisasi di luar contoh spesifik.
Apakah ini secara harfiah tentang representasi laten yang ditambatkan ke token tertentu, semacam bagaimana orang secara internal menerjemahkan sesuatu ke bahasa pertama yang mereka pelajari?


10 Agu, 20.06
Musk: Steve, pertanyaan sebenarnya yang terus saya tanyakan kepada tim adalah apakah LLM saat ini dapat beralasan ketika mereka meninggalkan distribusi pelatihan. Semua orang mengutip petunjuk rantai pemikiran, tetapi itu bisa jadi hanya mimikri.
Hsu: Setuju. Tolok ukur terbaru menunjukkan bahwa bahkan model tingkat Grok4 menurun tajam setelah Anda memaksakan pergeseran domain — ruang laten tidak mencakup modalitas baru.
Musk: Jadi ini lebih merupakan masalah cakupan daripada kegagalan penalaran?
Hsu: Sebagian. Tapi ada masalah yang lebih dalam. Satu-satunya bias induktif bawaan transformator adalah pencocokan pola asosiatif. Ketika prompt benar-benar di luar distribusi—katakanlah, teka-teki simbolis yang tokennya tidak pernah terjadi bersamaan dalam pelatihan—model tidak memiliki struktural sebelum kembali ke sana. Itu benar-benar melempar koin.
Musk: Namun kami melihat "grokking" yang muncul pada tugas-tugas sintetis. Zhong et al. menunjukkan bahwa kepala induksi dapat menyusun aturan yang tidak pernah mereka latih secara eksplisit. Bukankah itu terlihat seperti penalaran?
Hsu: Komposisi memberi Anda generalisasi terbatas, tetapi aturannya masih harus terletak pada rentang tata bahasa pelatihan. Segera setelah Anda mengubah semantik—mengubah satu operator dalam teka-teki—akurasinya runtuh. Itu bukan alasan yang kuat; itu interpolasi rapuh.
Musk: Tidak bisakah pembelajaran penguatan memperbaikinya? DRG-Sapphire menggunakan GRPO di atas model dasar 7 B dan mendapatkan pengkodean kelas dokter pada catatan klinis, tugas OOD klasik.
Hsu: Tangkapannya adalah bahwa RL hanya berfungsi setelah model dasar telah menyerap pengetahuan domain yang cukup melalui penyetelan halus yang diawasi. Ketika korpus pra-pelatihan jarang, RL saja mendatar. Jadi "penalaran" masih parasit pada kepadatan pengetahuan sebelumnya.
Musk: Jadi kesimpulan Anda adalah bahwa penskalaan data dan parameter tidak akan menyelesaikan masalah? Kita akan selalu menabrak dinding di mana domain OOD berikutnya merusak model?
Hsu: Belum tentu dinding, tapi langit-langit. Kurva empiris menunjukkan bahwa kesalahan generalisasi meluruh secara kasar secara logaritmik dengan contoh pelatihan. Itu menyiratkan Anda membutuhkan lebih banyak data secara eksponensial untuk setiap distribusi ekor baru. Untuk vertikal sempit—katakanlah, diagnostik mesin roket—lebih murah untuk memanggang di awal simbolis daripada menskalakan secara membabi buta.
Musk: Yang membawa kita kembali ke hibrida neuro-simbolik. Berikan LLM akses ke pemecah kecil terverifikasi, lalu biarkan mengatur panggilan saat distribusi bergeser.
Hsu: Tepat. LLM menjadi meta-pengontrol yang mengenali kapan OOD dan diserahkan ke modul khusus. Arsitektur itu menghindari kekeliruan "satu transformator raksasa".
Musk: Baiklah, saya akan memberi tahu tim xAI untuk berhenti mengejar triliunan token berikutnya dan mulai membangun lapisan perutean. Terima kasih, Steve.
Hsu: Kapan saja. Dan jika Anda membutuhkan kasus uji OOD sintetis, lab saya memiliki generator yang sudah tertipu GPT-5. Saya akan mengirim repo.
Percakapan dengan Elon ini mungkin dihasilkan AI.

3,53K
Teratas
Peringkat
Favorit