GAUSS: Ogólna Ocena Podstawowych Umiejętności Strukturalnych w Matematyce Cieszymy się, że możemy zaprezentować GAUSS, benchmark AI w matematyce nowej generacji, stworzony w celu przezwyciężenia ograniczeń niskiej rozdzielczości umiejętności w dzisiejszych benchmarkach. Co to robi GAUSS profiluje LLM-y w 12 wymiarach umiejętności poznawczych, obejmujących wiedzę, rozumowanie, uczenie się i kreatywność, oferując precyzyjny i kompleksowy obraz zdolności matematycznych modeli. Dlaczego to ma znaczenie Ujawniwszy mocne i słabe strony na szczegółowym poziomie, GAUSS kładzie fundamenty dla rozwoju AI w matematyce od rozpoznawania wzorców na powierzchni do prawdziwego rozumowania i zrozumienia. Co odkryliśmy Zastosowując GAUSS do myślenia GPT-5, dowiedzieliśmy się: ✅ Silny w przypominaniu taksonomii, ocenie argumentów, sprawdzaniu prawdopodobieństwa, podsumowywaniu zaawansowanych prac i stawianiu problemów ❌ Słaby w zastosowaniu twierdzeń, obliczeniach symbolicznych, stosowaniu strategii rozwiązywania problemów, intuicji geometrycznej i generalizacji. Co dalej Budujemy starannie dobrane zestawy problemów z rubrykami poprzez crowdsourcing społecznościowy, wykresy umiejętności dla LLM-ów oraz automatycznego oceniacza AI, fundamenty dla treningu modeli w kierunku superinteligencji matematycznej. Serdecznie zapraszamy wszystkich do dołączenia do społeczności GAUSS, wniesienia problemów przez nasz portal i pomocy w kształtowaniu przyszłości AI w matematyce! Prace te prowadziłem ja oraz Jiaxin Zhang (@JiaxinZhang626) w @hyperbolic_labs / @Caltech, razem z Qiuyu Ren i Tahsin Saffat w @UCBerkeley, Lily Liu (@eqhylxx) w @UCBerkeley → teraz @OpenAI, Zitong Yang (@ZitongYang0) w @Stanford, prof. Banghua Zhu (@BanghuaZ) w @nvidia / @UW oraz prof. Yi Ma (@YiMaTweets) w @UCBerkeley / @HKUniversity. Linki i szczegóły poniżej 👇 (1/n)