Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Fun Math Benchmark, GAUSS, de @hyperbolic_labs et al
Ei extrag din diverse surse 41 de probleme de matematică care sunt dificile, dar permit evaluarea diferitelor aspecte ale rezolvării problemelor
Și evaluați modele pe baza adevărului de bază și a unei rubrici
Și sunt grele.
Pe măsură ce autorii au analizat răspunsurile, au văzut atât punctele forte, cât și deficiențele GPT-5:
- Cunoștințe puternice și capacitate de revizuire
- Abilități slabe de a stabili un raționament matematic avansat de sus în jos
Intrigant și plăcut să ai această prezentare generală
Nerăbdător să-l văd în fața modelului IMO! :)

Limită superioară
Clasament
Favorite