Poate că ar fi trebuit să clarific acest lucru, dar destul de mulți oameni par să confunde ceea ce măsoară de fapt acest benchmark. NU este, nici nu încearcă să fie o măsură a capacităților de codare agentică sau IRL. Încearcă să aproximeze capacitățile matematice ale LLM-urilor actuale pe un set de probleme pe care le am, intuiția sunt deosebit de greu de rezolvat pentru arhitecturile modelelor de astăzi. Eu personal tind să prețuiesc capacitățile matematice mult mai mult decât majoritatea oamenilor, iar acest lucru este în regulă. Majoritatea oamenilor nu ar trebui să le pese de matematică și poate că Claude-4-5-Sonnet este mai bun pentru lucrurile pe care le prețuiești mai mult într-un LLM. Dar strict pentru probleme matematice complicate – și asta este ceea ce susține acest grafic – GLM-4.6 depășește Claude-4-5-Sonnet, nu mai mult, nici mai puțin. NU este o dovadă și nici nu pretinde că Claude-4-5-Sonnet este un model în general mai rău sau nu este alegerea mai bună pentru tine. Nu știu dacă unii oameni vor să interpreteze greșit, dar am presupus că majoritatea oamenilor pot face transferul de mai sus. Literalmente este nevoie doar de gândire, citire și privire a graficului mai mult de 2 secunde.