Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir kratzen gerade erst an der Oberfläche der Bewertungen. Ein erheblicher Teil der Aufgaben von Wissensarbeitern wird in den heutigen beliebtesten Benchmarks nicht erfasst.
Während relevante Fähigkeiten oft aus bestehenden Programmier- und Mathematikbewertungen extrapoliert werden können, repräsentieren diese nicht vollständig die Komplexität realer Aufgaben in vielen Bereichen wie Recht, Finanzdienstleistungen, Buchhaltung oder Beratung.
Wir werden bald in eine Ära eintreten, in der das Verfolgen dieser Arbeitsabläufe ebenso geschätzt wird wie das Programmieren. Dies wird ein großer Durchbruch für die nächste Welle von AI-Agenten-Anwendungsfällen im Unternehmen sein.

5. Sept., 07:02
Oft ist die Fähigkeit der Forscher, an einer Fähigkeit zu iterieren, durch unsere Fähigkeit, diese Fähigkeit zu messen, eingeschränkt. Ich glaube, dass Fortschritt mehr eval-abhängig ist, als die Leute denken.
Manchmal wirken Bewertungen kausal. Folgte SWE-Bench dem agentischen Codieren, oder folgte das agentische Codieren SWE-Bench?
Wir hören oft von der Lösung wirklich langfristiger Aufgaben (Wochen, Monate) oder dass kontinuierliches Lernen für AGI notwendig ist, usw. Doch wo sind die Bewertungen, die die Defizite unserer Modelle hier beweisen?
Ich würde mir wünschen, dass mehr Menschen an AGI-vollständigen Bewertungen arbeiten, Bewertungen, die wirklich den wirtschaftlichen Wert und Einfluss verfolgen, monatelange Aufgaben usw.
82,25K
Top
Ranking
Favoriten