Oft ist die Fähigkeit der Forscher, an einer Fähigkeit zu iterieren, durch unsere Fähigkeit, diese Fähigkeit zu messen, eingeschränkt. Ich glaube, dass Fortschritt mehr eval-abhängig ist, als die Leute denken. Manchmal wirken Bewertungen kausal. Folgte SWE-Bench dem agentischen Codieren, oder folgte das agentische Codieren SWE-Bench? Wir hören oft von der Lösung wirklich langfristiger Aufgaben (Wochen, Monate) oder dass kontinuierliches Lernen für AGI notwendig ist, usw. Doch wo sind die Bewertungen, die die Defizite unserer Modelle hier beweisen? Ich würde mir wünschen, dass mehr Menschen an AGI-vollständigen Bewertungen arbeiten, Bewertungen, die wirklich den wirtschaftlichen Wert und Einfluss verfolgen, monatelange Aufgaben usw.
149,15K