OpenAI hat klar gemacht, dass Evaluierungen "unscharfe Ziele spezifisch und explizit machen" sollten, und dass Grenz-Evaluierungen mit kontextuellen Evaluierungen kombiniert werden müssen, die echten Arbeitsabläufen entsprechen, anstatt mit Eingabeaufforderungs-Spielplätzen: Was @shyamalanadkat, Leiter der Angewandten Evaluierungen bei @OpenAI, beschreibt, ist der gleiche Zyklus, den wir für Codierungsagenten mit cline-bench wollen: ein gemeinsames goldenes Set von schwierigen, realen Codierungsaufgaben, bei denen Modelle Schwierigkeiten hatten und Menschen eingreifen mussten, verpackt als reproduzierbare Umgebungen, damit Labore und Teams spezifizieren können, wie "großartig" aussieht, die Leistung unter realen Bedingungen messen und durch das Lernen aus konkreten Fehlermustern verbessern können: Wenn Sie den vollständigen Kontext darüber, wie OpenAI über Evaluierungen denkt, haben möchten, finden Sie die Einführung hier: