Saya sedikit tersesat dalam semua akronim dan jargon di sini, jadi saya meminta Claude menjelaskannya tanpa menggunakan akronim apa pun dan sekarang semuanya sangat masuk akal (tldr; bandwidth ⟹ kesederhanaan): Ini adalah diskusi teknis yang menarik tentang pelatihan model bahasa besar dalam skala besar. Percakapan Inti Jingyuan Liu mengungkapkan keterkejutannya karena menemukan bahwa Anda tidak memerlukan teknik pengoptimalan kompleks tertentu saat menggunakan TPU (Tensor Processing Units - chip AI khusus Google) versus GPU (Graphics Processing Units - biasanya chip NVIDIA). Konsep Teknis Utama Dijelaskan: Jenis Perangkat Keras: •GPU (Graphics Processing Unit): Awalnya dirancang untuk grafik, sekarang banyak digunakan untuk AI. NVIDIA mendominasi pasar ini. • TPU (Tensor Processing Unit): Chip Google yang dirancang khusus khusus untuk pembelajaran mesin. Strategi Paralelisme: Saat melatih model AI besar-besaran, Anda perlu membagi pekerjaan ke banyak chip. Ada beberapa cara untuk melakukan ini: 1) Paralelisme Data (DP): Setiap chip memproses batch data yang berbeda dengan salinan model yang sama 2) Tensor Parallelism (TP): Operasi matematika model dibagi di seluruh chip 3) Paralelisme Pipa (PP): Lapisan model yang berbeda ditempatkan pada chip yang berbeda, menciptakan pipa Tantangan teknis yang sedang dibahas: Masalah kehilangan tambahan: Saat melatih model yang sangat besar, Anda sering menambahkan "kerugian tambahan" (tujuan pelatihan tambahan) pada lapisan perantara untuk membantu gradien mengalir lebih baik melalui jaringan. Di bawah batasan PPVP (Pipeline Parallelism with Variable Partitioning), ini menjadi kompleks karena: •Anda perlu melakukan "semua f semua b" (semua umpan maju, lalu semua umpan mundur) •Ini menantang untuk penggunaan memori puncak karena Anda harus menyimpan hasil menengah Inovasi DeepSeek: Mereka mengembangkan desain "bias auxfree" yang tampaknya menghindari kebutuhan kerugian tambahan ini sambil tetap berlatih secara efektif. Wahyu yang Mengejutkan: Pakar senior mengatakan kepada Jingyuan bahwa dengan TPU pada skala K2 atau DSV3 (ini adalah konfigurasi kluster dengan ratusan atau ribuan chip), Anda dapat mencapai MFU (Model FLOPs Utilization yang sangat baik - pada dasarnya seberapa efisien Anda menggunakan perangkat keras) TANPA menggunakan Pipeline Parallelism. Mengapa ini mengejutkan? • Paralelisme Pipa biasanya dianggap penting untuk pelatihan skala besar • Ini adalah teknik kompleks yang membutuhkan pengoptimalan yang cermat • Mampu menghindarinya menyederhanakan semuanya secara signifikan Penjelasan Horace He: Dia menjelaskan MENGAPA ini mungkin dilakukan dengan TPU: Keunggulan bandwidth: TPU dan kluster NVIDIA kelas atas (seperti NVL72 - konfigurasi 72-GPU terbaru NVIDIA dengan interkoneksi NVLink) memiliki bandwidth yang tinggi antar chip sehingga dapat menangani persyaratan komunikasi tanpa Paralelisme Pipa. Wawasan kuncinya: •Paralelisme Pipeline terutama diperlukan ketika Anda "terhambat pada komunikasi DP" (dibatasi oleh seberapa cepat Anda dapat berkomunikasi selama pelatihan paralel data) •Jika Anda memiliki bandwidth yang cukup di domain yang cukup besar (kluster yang saling berhubungan), Anda dapat menggunakan strategi paralelisme yang lebih sederhana • Ini bekerja "untuk waktu yang sangat lama" - artinya Anda dapat melatih bahkan model yang sangat besar tanpa mencapai batas Intuisi: Anggap saja seperti sistem jalan raya: • Kluster GPU tradisional seperti memiliki jalan sempit antar kota, jadi Anda memerlukan perutean yang rumit (Paralelisme Pipa) untuk menghindari kemacetan lalu lintas • Kluster TPU atau GPU yang terhubung dengan NVLink seperti memiliki jalan raya besar - Anda dapat mengirim semuanya secara langsung tanpa perutean mewah Ini adalah masalah besar karena Paralelisme Alur rumit untuk diterapkan, di-debug, dan dioptimalkan. Mampu menghindarinya sambil tetap mencapai efisiensi tinggi membuat seluruh proses pelatihan jauh lebih sederhana dan lebih andal. Diskusi ini menyoroti bagaimana kemajuan dalam teknologi interkoneksi perangkat keras ("jalan" antar chip) secara fundamental dapat mengubah strategi perangkat lunak yang diperlukan untuk pelatihan AI yang efisien.
10,21K