Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GAUSS: Penilaian Umum Keterampilan Terstruktur yang Mendasari dalam Matematika
Kami sangat senang meluncurkan GAUSS, tolok ukur AI matematika generasi berikutnya yang dibuat untuk mengatasi keterbatasan resolusi keterampilan rendah dalam tolok ukur saat ini.
Apa fungsinya
GAUSS membuat profil LLM di 12 dimensi keterampilan kognitif, yang mencakup pengetahuan, penalaran, pembelajaran, dan kreativitas, menawarkan pandangan yang tepat dan komprehensif tentang kemampuan matematis model.
Mengapa itu penting
Dengan mengekspos kekuatan dan kelemahan pada tingkat yang halus, GAUSS meletakkan dasar untuk memajukan AI matematika dari pengenalan pola tingkat permukaan menuju penalaran dan pemahaman yang asli.
Apa yang kami temukan
Menerapkan GAUSS ke GPT-5 Thinking, kami belajar:
✅ Kuat dalam pengingat taksonomi, mengevaluasi argumen, memeriksa masuk akal, meringkas makalah lanjutan, dan mengajukan masalah
❌ Lemah dalam aplikasi teorema, komputasi simbolik, aplikasi strategi pemecahan masalah, intuisi geometris dan generalisasi.
Apa selanjutnya
Kami membangun kumpulan masalah yang dikuratori dengan rubrik melalui crowdsourcing komunitas, bagan keterampilan untuk LLM, dan penilai otomatis AI, fondasi untuk pelatihan model menuju kecerdasan super matematika.
Kami dengan hangat mengundang semua orang untuk bergabung dengan komunitas GAUSS, menyumbangkan masalah melalui portal kami, dan membantu membentuk masa depan Math AI!
Karya ini dipimpin oleh saya dan Jiaxin Zhang (@JiaxinZhang626) di @hyperbolic_labs/@Caltech, bersama dengan Qiuyu Ren & Tahsin Saffat di @UCBerkeley, Lily Liu (@eqhylxx) di @UCBerkeley → sekarang @OpenAI, Zitong Yang (@ZitongYang0) di @Stanford, Prof. Banghua Zhu (@BanghuaZ) di @nvidia/@UW, dan Prof. Yi Ma (@YiMaTweets) di @UCBerkeley/@HKUniversity.
Tautan dan detail di bawah ini 👇 (1/n)


Teratas
Peringkat
Favorit