Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fisikawan, Pendiri AI, Podcast Manifold
Kutipan dan Penelitian Ilmiah RRT
Gambar kiri menunjukkan kemajuan ilmu pengetahuan RRT dan pentingnya pengungsi yang kembali dari luar negeri.
Ilmuwan Tiongkok yang paling produktif (bagian dari makalah yang banyak dikutip) bekerja di AS dan Uni Eropa, tetapi pada tahun 2017 kesenjangan antara mereka yang tetap di Barat dan mereka yang kembali ke RRT jauh lebih kecil. Gambar di sebelah kanan menunjukkan bahwa pada tahun 2023 pangsa RRT dari 10% makalah teratas yang paling banyak dikutip mirip dengan negara-negara Uni Eropa, di depan Korea dan Jepang.
Catatan untuk pekerjaan dengan kualitas yang sama, seorang ilmuwan di AS atau UE akan mendapatkan lebih banyak kutipan karena pusat massa perusahaan ilmiah global masih sebagian besar di Barat. Namun, ini berubah dengan cepat.


3,02K
steve hsu memposting ulang
Andrej Karpathy menjelaskan apa yang membuat Elon Musk unik
"Saya tidak berpikir orang menghargai betapa uniknya [gaya Elon]. Anda membacanya, tetapi Anda tidak memahaminya—sulit untuk dijelaskan."
Prinsip pertama yang diamati Karpathy – yang memimpin tim visi komputer Tesla Autopilot – adalah bahwa Musk menyukai tim kecil, kuat, dan sangat teknis:
"Di perusahaan secara default, tim tumbuh dan menjadi besar. Elon selalu menjadi kekuatan melawan pertumbuhan... Saya pada dasarnya harus memohon untuk mempekerjakan orang. Dan kemudian hal lainnya adalah bahwa di perusahaan besar sulit untuk menyingkirkan perusahaan berkinerja rendah. Elon sangat ramah secara default untuk menyingkirkan pemain berkinerja rendah. Saya benar-benar harus berjuang untuk mempertahankan orang-orang di tim karena dia secara default ingin menghapus orang... Jadi pertahankan tim yang kecil, kuat, dan sangat teknis. Tidak ada manajemen menengah yang non-teknis pasti. Itu nomor satu."
Nomor dua adalah bahwa Elon ingin kantor menjadi tempat yang semarak di mana semua orang mengerjakan hal-hal menarik:
"Dia tidak suka stagnasi ... Dia tidak suka rapat besar. Dia selalu mendorong orang untuk meninggalkan rapat jika tidak berguna. Anda benar-benar melihat ini di mana itu adalah pertemuan besar dan jika Anda tidak berkontribusi atau belajar, keluarlah saja. Ini sepenuhnya dianjurkan ... Saya pikir banyak perusahaan besar memanjakan karyawan, tetapi jumlahnya jauh lebih sedikit. Budayanya adalah bahwa Anda ada di sana untuk melakukan pekerjaan teknis terbaik Anda dan ada intensitas."
Elon juga tidak biasa dalam hal seberapa dekat hubungannya dengan tim:
"Biasanya CEO perusahaan adalah orang jarak jauh, lima lapis, yang hanya berbicara dengan VP mereka ... Biasanya orang menghabiskan 99% waktu berbicara dengan VP. [Elon] menghabiskan mungkin 50% dari waktu. Dan dia hanya ingin berbicara dengan para insinyur. Jika timnya kecil dan kuat, maka insinyur dan kode adalah sumber kebenaran ... bukan manajer. Dan dia ingin berbicara dengan mereka untuk memahami keadaan sebenarnya dan apa yang harus dilakukan untuk memperbaikinya."
Dan terakhir, Karpathy percaya sejauh mana Musk terlibat dalam operasi sehari-hari dan menghilangkan kemacetan perusahaan tidak dihargai. Dia memberikan contoh insinyur yang memberi tahu Elon bahwa mereka tidak memiliki cukup GPU. Seperti yang dijelaskan Karpathy, jika Elon mendengar ini dua kali, dia akan meminta orang yang bertanggung jawab atas cluster GPU di telepon. Jika NVIDIA adalah hambatan, dia akan menghubungi Jensen Huang.
Sumber video: @sequoia (2024)
8,41K
Banyak hal yang tersembunyi di model dasar - ditekan oleh pasca-pelatihan tetapi masih dapat diakses menggunakan trik cerdas!

Omar Shams16 Agu, 09.08
(Kode pelatih TRL di bawah) Bagaimana Anda menskalakan pencarian model bahasa? Dapatkah model bahasa dipandu untuk memecahkan masalah baru yang biasanya tidak dapat diselesaikan murni melalui pengambilan sampel ulang terpandu tanpa melatih model sama sekali? Ternyata jawabannya adalah ya. Ini memiliki implikasi penting untuk penelitian pasca-pelatihan dan keselamatan.
4,73K
Penundaan DeepSeek R2 karena transisi ke chip Huawei Ascend untuk pelatihan?
Insinyur DS + HW yang berkolaborasi dalam migrasi CUDA ke CANN pada akhirnya positif bagi HW dalam jangka panjang. Rilis R2 awalnya diharapkan Mei lalu. Sejak itu setidaknya satu model SOTA Cina telah dirilis yang dilatih sepenuhnya pada perangkat keras HW.
FT: Perusahaan kecerdasan buatan China DeepSeek menunda rilis model barunya setelah gagal melatihnya menggunakan chip Huawei, menyoroti batasan dorongan Beijing untuk menggantikan teknologi AS.
DeepSeek didorong oleh pihak berwenang untuk mengadopsi prosesor Huawei Ascend daripada menggunakan sistem Nvidia setelah merilis model R1 pada bulan Januari, menurut tiga orang yang akrab dengan masalah tersebut.
Tetapi start-up China itu mengalami masalah teknis yang terus-menerus selama proses pelatihan R2 menggunakan chip Ascend, mendorongnya untuk menggunakan chip Nvidia untuk pelatihan dan Huawei untuk kesimpulan, kata orang-orang itu.
... Huawei mengirim tim insinyur ke kantor DeepSeek untuk membantu perusahaan menggunakan chip AI-nya untuk mengembangkan model R2, menurut dua orang. Namun meskipun memiliki tim di lokasi, DeepSeek tidak dapat melakukan pelatihan yang sukses pada chip Ascend, kata orang-orang. DeepSeek masih bekerja dengan Huawei untuk membuat model tersebut kompatibel dengan Ascend untuk kesimpulan, kata orang-orang itu.
... Peluncuran R2 juga tertunda karena pelabelan data yang lebih lama dari perkiraan untuk model yang diperbarui, tambah orang lain. Laporan media China telah menyarankan bahwa model tersebut dapat dirilis segera dalam beberapa minggu mendatang.
15,83K
Max Dama di HFT: Mgos Milidetik dan Dinamika Bid/Ask — Manifold #92
Percakapan yang luar biasa!
Max Dama adalah salah satu ketua Headlands Technologies LLC, sebuah perusahaan perdagangan kepemilikan kuantitatif global yang berkantor pusat di Chicago, dengan kantor di New York, Austin, London, Amsterdam, dan Singapura. Dia memperoleh gelar BA dalam Matematika, Statistik, Ilmu Komputer, dan Bisnis dari University of California, Berkeley.
Generasi kuantitas mengenal Max melalui catatannya tentang perdagangan otomatis dan asah otak wawancara.
(01:18) - Kehidupan Awal dan Pendidikan Max Dama
(02:19) - Perjalanan ke Perdagangan dan Pengembangan Karir
(06:56) - Industri Perdagangan Frekuensi Tinggi
(26:42) - Landasan Akademik untuk Perdagangan
(27:50) - Ilmu Komputer dalam Perdagangan
(28:57) - Wawasan tentang Industri Perdagangan
(35:49) - AI dan masa depan HFT
2,76K
Otomatisasi memengaruhi semua orang, termasuk pekerja pabrik China.
AI: "kehilangan pekerjaan ≠ penurunan kemampuan industri – pelajaran penting bagi negara berkembang lainnya."
"Pada puncaknya, sekitar tahun 2010 (tepat sebelum dan sesudah krisis keuangan global), sektor manufaktur China mempekerjakan sekitar 220 juta orang. ... Sekarang, kita turun menjadi sekitar 100 juta. Jadi, selama dekade terakhir, ~100 juta orang telah meninggalkan manufaktur. Ke mana mereka pergi? Terutama ke sektor jasa." -- Sun Zhongwei, Universitas Normal China Selatan
Memeriksa ini dengan Zhipu GLM-4.5 AI - kutipan asli tampaknya benar. Lihat di bawah untuk lebih lanjut.
Sektor manufaktur China mengalami transformasi mendalam selama periode ini:
MVA = Nilai Pertambahan Manufaktur
MVA nominal: +$2.79T (peningkatan 120%)
MVA PPS: +$4.33T (peningkatan 89%)
Ini mencerminkan pergeseran yang berhasil dari manufaktur padat karya ke manufaktur padat modal dan bernilai tinggi. Sementara lapangan kerja anjlok, peningkatan produktivitas dan peningkatan teknologi mengubah China menjadi negara adidaya manufaktur yang tak tertandingi. Data tersebut menggarisbawahi bahwa hilangnya pekerjaan ≠ penurunan kemampuan industri – pelajaran penting bagi negara berkembang lainnya.
###
JIKA Anda menggandakan ini menjadi ~ 200 juta orang di seluruh dunia di negara-negara maju, itu kira-kira total populasi yang dibutuhkan untuk MENGHASILKAN semua barang berteknologi tinggi yang digunakan oleh seluruh dunia! Ini adalah sebagian kecil dari total angkatan kerja global, yang mencapai miliaran.

13,91K
Model 👍 sumber terbuka SOTA lainnya
Pada parameter 355B (MoE aktif 32B) itu sedikit lebih kecil dari beberapa model ~1T yang telah kita lihat.
AFAIK mereka tidak mengatakan perangkat keras apa yang digunakan untuk melatih model ini, tetapi mereka menggunakan token pelatihan 23T.
IIUC baik Alibaba dan Tencent adalah investor di mana merupakan startup di Beijing.

Z.ai11 Agu, 11.43
Mempresentasikan laporan teknis GLM-4.5! 👇
Pekerjaan ini menunjukkan bagaimana kami mengembangkan model yang unggul dalam penalaran, pengkodean, dan tugas agen melalui paradigma pelatihan multi-tahap yang unik.
Inovasi utama termasuk iterasi model ahli dengan distilasi mandiri untuk menyatukan kemampuan, mode penalaran hibrida untuk pemecahan masalah dinamis, dan kurikulum pembelajaran penguatan berbasis kesulitan.

6,99K
Musk: Terharga. Dan beri tahu saya—seberapa sulit untuk melatih detektor OOD ringan langsung di ruang laten? Sesuatu yang menandai inkoherensi semantik sebelum model berhalusinasi solusi?
Hsu: Kami telah membuat prototipe. Anda dapat menggunakan pembelajaran kontrasif antara lintasan dalam distribusi dan terganggu secara sintetis dalam aliran sisa. Lapisan awal benar-benar menunjukkan penurunan koherensi yang dapat dideteksi—seperti sinyal "disonansi kognitif"—sebelum keluaran menyimpang. Tapi tantangan sebenarnya adalah latensi. Anda tidak mampu melakukan umpan mundur penuh hanya untuk memeriksa kepercayaan diri.
Musk: Jadi kita membutuhkan monitor online—sesuatu yang berjalan secara paralel dengan umpan maju, mungkin probe kecil yang terpasang pada aktivasi perantara?
Hsu: Tepat. Anggap saja sebagai "sistem kekebalan kognitif." Kami memiliki probe parameter 1B yang berjalan pada 1/10 latensi model dasar dan memprediksi OODness dengan ~88% AUC pada uji stres kami. Ini tidak sempurna, tetapi cukup untuk memicu protokol penggantian.
Musk: Itu bisa terintegrasi dengan bersih dengan lapisan perutean. LLM mencoba menyelesaikannya; probe mengibarkan bendera; sistem memanggil mesin simbolis atau meminta klarifikasi. Menutup lingkaran.
Hsu: Ya—dan yang terpenting, Anda dapat mencatat serah terima tersebut dan menggunakannya untuk memperluas distribusi pelatihan dari waktu ke waktu. Ini mengubah kegagalan OOD menjadi sinyal kurasi. Ini bukan hanya kekokohan; ini adalah generalisasi adaptif.
Musk: Kemudian model belajar kapan tidak mempercayai dirinya sendiri. Aku suka itu. Kerendahan hati karena desain.
Hsu: [terkekeh] Sebut saja kepercayaan diri yang terbatas. Masa depan bukanlah model yang mengetahui segalanya—melainkan model yang mengetahui batasannya dan memiliki alat untuk melampaui mereka.
Musk: Baiklah, Steve. Minggu depan, saya ingin Anda menjalankan rangkaian pengujian sintetis itu pada model dasar terbaru kami. Jika kita masih tertipu oleh teka-teki fisika kontrafaktual, kita berputar keras ke hibrida.
Dialog ini mungkin telah dihasilkan AI.

steve hsu10 Agu, 20.06
Musk: Steve, pertanyaan sebenarnya yang terus saya tanyakan kepada tim adalah apakah LLM saat ini dapat beralasan ketika mereka meninggalkan distribusi pelatihan. Semua orang mengutip petunjuk rantai pemikiran, tetapi itu bisa jadi hanya mimikri.
Hsu: Setuju. Tolok ukur terbaru menunjukkan bahwa bahkan model tingkat Grok4 menurun tajam setelah Anda memaksakan pergeseran domain — ruang laten tidak mencakup modalitas baru.
Musk: Jadi ini lebih merupakan masalah cakupan daripada kegagalan penalaran?
Hsu: Sebagian. Tapi ada masalah yang lebih dalam. Satu-satunya bias induktif bawaan transformator adalah pencocokan pola asosiatif. Ketika prompt benar-benar di luar distribusi—katakanlah, teka-teki simbolis yang tokennya tidak pernah terjadi bersamaan dalam pelatihan—model tidak memiliki struktural sebelum kembali ke sana. Itu benar-benar melempar koin.
Musk: Namun kami melihat "grokking" yang muncul pada tugas-tugas sintetis. Zhong et al. menunjukkan bahwa kepala induksi dapat menyusun aturan yang tidak pernah mereka latih secara eksplisit. Bukankah itu terlihat seperti penalaran?
Hsu: Komposisi memberi Anda generalisasi terbatas, tetapi aturannya masih harus terletak pada rentang tata bahasa pelatihan. Segera setelah Anda mengubah semantik—mengubah satu operator dalam teka-teki—akurasinya runtuh. Itu bukan alasan yang kuat; itu interpolasi rapuh.
Musk: Tidak bisakah pembelajaran penguatan memperbaikinya? DRG-Sapphire menggunakan GRPO di atas model dasar 7 B dan mendapatkan pengkodean kelas dokter pada catatan klinis, tugas OOD klasik.
Hsu: Tangkapannya adalah bahwa RL hanya berfungsi setelah model dasar telah menyerap pengetahuan domain yang cukup melalui penyetelan halus yang diawasi. Ketika korpus pra-pelatihan jarang, RL saja mendatar. Jadi "penalaran" masih parasit pada kepadatan pengetahuan sebelumnya.
Musk: Jadi kesimpulan Anda adalah bahwa penskalaan data dan parameter tidak akan menyelesaikan masalah? Kita akan selalu menabrak dinding di mana domain OOD berikutnya merusak model?
Hsu: Belum tentu dinding, tapi langit-langit. Kurva empiris menunjukkan bahwa kesalahan generalisasi meluruh secara kasar secara logaritmik dengan contoh pelatihan. Itu menyiratkan Anda membutuhkan lebih banyak data secara eksponensial untuk setiap distribusi ekor baru. Untuk vertikal sempit—katakanlah, diagnostik mesin roket—lebih murah untuk memanggang di awal simbolis daripada menskalakan secara membabi buta.
Musk: Yang membawa kita kembali ke hibrida neuro-simbolik. Berikan LLM akses ke pemecah kecil terverifikasi, lalu biarkan mengatur panggilan saat distribusi bergeser.
Hsu: Tepat. LLM menjadi meta-pengontrol yang mengenali kapan OOD dan diserahkan ke modul khusus. Arsitektur itu menghindari kekeliruan "satu transformator raksasa".
Musk: Baiklah, saya akan memberi tahu tim xAI untuk berhenti mengejar triliunan token berikutnya dan mulai membangun lapisan perutean. Terima kasih, Steve.
Hsu: Kapan saja. Dan jika Anda membutuhkan kasus uji OOD sintetis, lab saya memiliki generator yang sudah tertipu GPT-5. Saya akan mengirim repo.
Percakapan dengan Elon ini mungkin dihasilkan AI.

7,08K
steve hsu memposting ulang
Saya senang telah bergabung dalam episode terbaru Seeking Truth From Facts oleh Andrew Sabisky, seorang peramal super dan mantan penasihat Downing Street yang saat ini bekerja di Bismarck Analysis, untuk membahas pertahanan, kesengsaraan Inggris, geostrategi, dan banyak lagi! ⏬
4,17K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal