Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Fun Math Benchmark, GAUSS, av @hyperbolic_labs et al
De trekker ut fra forskjellige kilder 41 matematiske problemer som er vanskelige, men som gjør det mulig å evaluere forskjellige aspekter ved problemløsning
Og evaluere modeller på dem basert på grunnsannhet og en rubrikk
Og de er vanskelige.
Da forfatterne analyserte svarene, så de både styrker og mangler ved GPT-5:
- Sterk kunnskap og gjennomgangskapasitet
- Svake ferdigheter til å legge ned et avansert matematisk resonnement fra topp til bunn
Spennende, og hyggelig å ha denne oversikten
Ivrig etter å se den vendt mot IMO-modellen! :)

Topp
Rangering
Favoritter