OpenAI ясно заявила, что оценки должны "делать нечеткие цели конкретными и явными", и что передовые оценки должны сочетаться с контекстуальными оценками, которые соответствуют реальным рабочим процессам, а не игровым площадкам для подсказок: То, что описывает @shyamalanadkat, руководитель прикладных оценок в @OpenAI, — это тот же цикл, который мы хотим для кодирующих агентов с cline-bench: общий золотой набор сложных, реальных задач программирования, где модели испытывали трудности, и людям приходилось вмешиваться, упакованный в воспроизводимые среды, чтобы лаборатории и команды могли определить, как выглядит "отлично", измерить производительность в реальных условиях и улучшаться, обучаясь на конкретных случаях неудач: Если вы хотите получить полный контекст о том, как OpenAI думает об оценках, ознакомьтесь с вводной статьей здесь: