DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Ehkä minun olisi pitänyt tehdä tämä selvemmäksi, mutta melko monet ihmiset näyttävät hämmentävän sitä, mitä tämä vertailuarvo todella mittaa. Se EI ole, eikä se yritä olla agenttisen tai IRL-koodauskyvyn mittari. Se yrittää arvioida nykyisten LLM:ien matemaattisia kykyjä ongelmissa, joita intuitioni on erityisen vaikea ratkaista nykypäivän malliarkkitehtuureissa. Henkilökohtaisesti arvostan matemaattisia kykyjä paljon enemmän kuin useimmat henkilöt, ja tämä on täysin ok. Useimpien ppl:n ei pitäisi välittää matematiikasta, ja ehkä Claude-4-5-Sonnet on parempi asioihin, joita arvostat enemmän LLM:ssä. Mutta tiukasti hankalissa matemaattisissa ongelmissa – ja näin tämä kaavio väittää – GLM-4.6 on juuri ja juuri parempi kuin Claude-4-5-Sonnet, ei enempää, ei vähemmän. Se EI ole todiste eikä väitä, että Claude-4-5-Sonnet on kaiken kaikkiaan huonompi malli tai ei parempi valinta sinulle. En tiedä haluavatko jotkut ihmiset tulkita sen väärin, mutta oletin, että suurin osa ppl:istä voi tehdä yllä olevan siirron. Se vaatii kirjaimellisesti vain ajattelua, lukemista ja kaavion katsomista yli 2 sekuntia.

Johtavat

Rankkaus

Suosikit