Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir kratzen gerade erst an der Oberfläche der Bewertungen. Die überwiegende Mehrheit der Aufgaben von Wissensarbeitern wird in den heutigen beliebtesten Benchmarks nicht erfasst.
Während die Qualität der Fähigkeiten oft aus bestehenden Programmier- und Mathematikbewertungen extrapoliert werden kann, repräsentieren diese nicht vollständig die Komplexität dieser realen Aufgaben.
Bald werden wir in eine Ära eintreten, in der die Suche nach Arbeit in den Bereichen Recht, Finanzdienstleistungen, Fertigung, Buchhaltung, Beratung und vielen anderen wertvollen Bereichen ebenso geschätzt wird wie das Programmieren.

5. Sept., 07:02
Oft ist die Fähigkeit der Forscher, an einer Fähigkeit zu iterieren, durch unsere Fähigkeit, diese Fähigkeit zu messen, eingeschränkt. Ich glaube, dass Fortschritt mehr eval-abhängig ist, als die Leute denken.
Manchmal wirken Bewertungen kausal. Folgte SWE-Bench dem agentischen Codieren, oder folgte das agentische Codieren SWE-Bench?
Wir hören oft von der Lösung wirklich langfristiger Aufgaben (Wochen, Monate) oder dass kontinuierliches Lernen für AGI notwendig ist, usw. Doch wo sind die Bewertungen, die die Defizite unserer Modelle hier beweisen?
Ich würde mir wünschen, dass mehr Menschen an AGI-vollständigen Bewertungen arbeiten, Bewertungen, die wirklich den wirtschaftlichen Wert und Einfluss verfolgen, monatelange Aufgaben usw.
4,68K
Top
Ranking
Favoriten