Fun Math Benchmark, GAUSS, av @hyperbolic_labs et al De trekker ut fra forskjellige kilder 41 matematiske problemer som er vanskelige, men som gjør det mulig å evaluere forskjellige aspekter ved problemløsning Og evaluere modeller på dem basert på grunnsannhet og en rubrikk Og de er vanskelige. Da forfatterne analyserte svarene, så de både styrker og mangler ved GPT-5: - Sterk kunnskap og gjennomgangskapasitet - Svake ferdigheter til å legge ned et avansert matematisk resonnement fra topp til bunn Spennende, og hyggelig å ha denne oversikten Ivrig etter å se den vendt mot IMO-modellen! :)