Fun Math Benchmark, GAUSS, kirjoittaneet @hyperbolic_labs et al He poimivat eri lähteistä 41 matemaattista tehtävää, jotka ovat hankalia, mutta joiden avulla voidaan arvioida ongelmanratkaisun eri näkökohtia Ja arvioi malleja niiden perusteella perustotuuden ja rubriikin perusteella Ja ne ovat kovia. Kun kirjoittajat analysoivat vastauksia, he näkivät GPT-5:n sekä vahvuudet että puutteet: - Vahva osaaminen ja arviointikyky - Heikot taidot laatia edistynyttä matemaattista päättelyä ylhäältä alas Kiehtovaa, ja mukava saada tämä yleiskatsaus Innokas näkemään sen IMO-mallin edessä! :)