Vielleicht hätte ich das klarer machen sollen, aber ziemlich viele Leute scheinen zu verwechseln, was dieser Benchmark tatsächlich misst. Es ist NICHT, noch versucht es, eine Messung der agentischen oder IRL-Coding-Fähigkeiten zu sein. Es versucht, die mathematischen Fähigkeiten der aktuellen LLMs bei einer Reihe von Problemen zu approximieren, von denen ich die Intuition habe, dass sie für die heutigen Modellarchitekturen besonders schwer zu lösen sind. Ich persönlich neige dazu, mathematische Fähigkeiten viel mehr zu schätzen als die meisten Leute, und das ist völlig in Ordnung. Die meisten Leute sollten sich meiner Meinung nach nicht um Mathematik kümmern, und vielleicht ist Claude-4-5-Sonnet besser für Dinge, die dir in einem LLM wichtiger sind. Aber strikt für knifflige Mathematikprobleme – und das ist es, was dieses Diagramm behauptet – übertrifft GLM-4.6 einfach Claude-4-5-Sonnet, nicht mehr, nicht weniger. Es ist NICHT der Beweis, noch behauptet es, dass Claude-4-5-Sonnet ein insgesamt schlechteres Modell ist oder nicht die bessere Wahl für dich ist. Ich weiß nicht, ob einige Leute es falsch interpretieren wollen, aber ich ging davon aus, dass die Mehrheit der Leute die obige Übertragung machen kann. Es erfordert buchstäblich nur Denken, Lesen und mehr als 2 Sekunden auf das Diagramm schauen.