Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Banyak orang suka membandingkan kelas model yang berbeda seperti "penalaran" atau "non-penalaran" di mana pada kenyataannya sekarang mereka semua dilatih dengan sejumlah besar teknik pembelajaran penguatan yang sama (dan hal-hal lainnya).
Pandangan yang benar adalah melihat setiap rilis model pada spektrum upaya penalaran. Banyak yang mengatakan Claude adalah model non-penalaran, namun mereka adalah salah satu yang pertama memiliki token khusus dan UX untuk "berpikir mendalam, berdiri" (jauh sebelum mode berpikir yang diperluas). Hal yang sama bisa berlaku untuk DeepSeek v3.1 yang dirilis tetapi belum mudah digunakan. Kami tidak tahu berapa banyak token per respons yang digunakan dalam versi obrolan model ini secara default.
API dengan jumlah token yang tepat adalah satu-satunya sumber kebenaran dan harus dikomunikasikan lebih sering.
Kemudian, dalam model penalaran ada perbedaan besar dalam jumlah token yang digunakan. Harga model harus menjadi pertimbangan akhir dari usaha, campuran dari total parameter aktif dan jumlah token yang digunakan. Mendengarkan Dylan Patel di podcast a16z, sepertinya salah satu kemenangan besar GPT-5 dalam mode berpikir yang saya sukai (mirip dengan o3) adalah mendapatkan hasil yang sedikit lebih baik dengan hampir 50% lebih sedikit token. Saya telah merasakan ini sedikit, itu hanya lebih pada tugas daripada o3.
Poin lainnya adalah R1 generasi kedua, R1-0528 meningkatkan skor dengan menggunakan lebih banyak penalaran. Qwen juga serupa. Ini tidak selalu sangat berharga bagi pengguna.
Pada tingkat teknis, kami menyelesaikannya dengan melaporkan jumlah token yang digunakan per model dalam hasil evaluasi (terutama relatif terhadap rekan kerja). Masalahnya adalah bahwa peluncuran AI sekarang cukup arus utama dan ini adalah detail teknis yang bernuansa untuk dikomunikasikan.
Di sisi penelitian, misalnya, Anda dapat meningkatkan skor evaluasi secara bermakna dengan mengevaluasi model penalaran Anda pada konteks yang lebih panjang daripada rekan-rekan Anda.
Upaya penalaran dalam token, dan terkadang dalam prompt sistem, sekarang menjadi variabel yang kompleks tetapi bukan ya/tidak sederhana di semua rilis ini.
Di bawah ini adalah tangkapan layar dari postingan yang membahas hal ini sebelum o1 dirilis (12 September tahun lalu) dan tangkapan layar pengguna reddit yang mengungkap perilaku berpikir Claude.
Menyimpan kata-kata kasar ini untuk referensi di masa mendatang karena saya perlu mengulanginya sepanjang waktu.


25K
Teratas
Peringkat
Favorit