Fun Math Benchmark, GAUSS, de @hyperbolic_labs et al Ei extrag din diverse surse 41 de probleme de matematică care sunt dificile, dar permit evaluarea diferitelor aspecte ale rezolvării problemelor Și evaluați modele pe baza adevărului de bază și a unei rubrici Și sunt grele. Pe măsură ce autorii au analizat răspunsurile, au văzut atât punctele forte, cât și deficiențele GPT-5: - Cunoștințe puternice și capacitate de revizuire - Abilități slabe de a stabili un raționament matematic avansat de sus în jos Intrigant și plăcut să ai această prezentare generală Nerăbdător să-l văd în fața modelului IMO! :)