GAUSS: Penilaian Umum Keterampilan Terstruktur yang Mendasari dalam Matematika Kami sangat senang meluncurkan GAUSS, tolok ukur AI matematika generasi berikutnya yang dibuat untuk mengatasi keterbatasan resolusi keterampilan rendah dalam tolok ukur saat ini. Apa fungsinya GAUSS membuat profil LLM di 12 dimensi keterampilan kognitif, yang mencakup pengetahuan, penalaran, pembelajaran, dan kreativitas, menawarkan pandangan yang tepat dan komprehensif tentang kemampuan matematis model. Mengapa itu penting Dengan mengekspos kekuatan dan kelemahan pada tingkat yang halus, GAUSS meletakkan dasar untuk memajukan AI matematika dari pengenalan pola tingkat permukaan menuju penalaran dan pemahaman yang asli. Apa yang kami temukan Menerapkan GAUSS ke GPT-5 Thinking, kami belajar: ✅ Kuat dalam pengingat taksonomi, mengevaluasi argumen, memeriksa masuk akal, meringkas makalah lanjutan, dan mengajukan masalah ❌ Lemah dalam aplikasi teorema, komputasi simbolik, aplikasi strategi pemecahan masalah, intuisi geometris dan generalisasi. Apa selanjutnya Kami membangun kumpulan masalah yang dikuratori dengan rubrik melalui crowdsourcing komunitas, bagan keterampilan untuk LLM, dan penilai otomatis AI, fondasi untuk pelatihan model menuju kecerdasan super matematika. Kami dengan hangat mengundang semua orang untuk bergabung dengan komunitas GAUSS, menyumbangkan masalah melalui portal kami, dan membantu membentuk masa depan Math AI! Karya ini dipimpin oleh saya dan Jiaxin Zhang (@JiaxinZhang626) di @hyperbolic_labs/@Caltech, bersama dengan Qiuyu Ren & Tahsin Saffat di @UCBerkeley, Lily Liu (@eqhylxx) di @UCBerkeley → sekarang @OpenAI, Zitong Yang (@ZitongYang0) di @Stanford, Prof. Banghua Zhu (@BanghuaZ) di @nvidia/@UW, dan Prof. Yi Ma (@YiMaTweets) di @UCBerkeley/@HKUniversity. Tautan dan detail di bawah ini 👇 (1/n)