Ми оголошуємо про cline-bench — реальний відкритий бенчмарк для агентного кодування. Cline-Bench побудований на основі реальних інженерних завдань від учасників розробників, де Frontier Models зазнали невдачі, і людям довелося втрутитися. Кожне прийняте завдання стає повністю відтворюваним RL-середовищем із початковим знімком репозиторії, реальним запитом і перевірками істинності з коду, який зрештою був відправлений. Для лабораторій і дослідників це означає: > можна оцінювати моделі на основі справжньої інженерної роботи, а не головоломок Leetcode. > отримаєте середовища, сумісні з Harbor і сучасними інструментами для порівняння поруч. > можна використовувати ті самі завдання для SFT і RL, щоб навчання та оцінювання залишалися на основі реальних інженерних робочих процесів. Сьогодні ми відкриваємо внески та починаємо збирати завдання через Cline Provider. Участь є необов'язковою і обмежена відкритими репозиторіями. Коли складне завдання ставить модель у глухий кут, і ви втручаєтеся, ця невдача може перетворитися на стандартизоване середовище, яке вся спільнота може вивчати, оцінювати та тренуватися. Якщо ви працюєте над складними задачами з відкритим кодом, особливо з комерційним OSS, я особисто хотів би запросити вас допомогти. Ми зобов'язуємося інвестувати $1 млн на підтримку open source підтримувачів для участі в ініціативі cline-bench. «Cline-bench — чудовий приклад того, як відкриті, реальні еталони можуть рухати всю екосистему вперед. Якісні, перевірені завдання з кодування, засновані на реальних робочих процесах розробників, — це саме те, що нам потрібно для змістовного вимірювання передових моделей, виявлення режимів збою та просування сучасних технологій.» – @shyamalanadkat, керівник відділу прикладних оцінок @OpenAI "Nous Research зосереджені на навчанні та розмноженні моделей, які чудово справляються з реальними завданнями. Cline-Bench стане невід'ємним інструментом у наших зусиллях щодо максимізації продуктивності та розуміння можливостей наших моделей.» – @Teknium, керівник післянавчального @nousresearch «Ми великі прихильники всього, що Cline робить для розширення можливостей екосистеми відкритого ШІ, і надзвичайно раді підтримати випуск cline-bench. Високоякісні відкриті середовища для агентного кодування трапляються надзвичайно рідко. Цей реліз матиме велике значення як оцінка можливостей, так і як посттренувальний тест-майданчик для складних реальних завдань, розширюючи наше колективне розуміння та можливості автономної розробки програмного забезпечення.» – @willccbb, керівник досліджень @PrimeIntellect: «Ми поділяємо прагнення Cline до відкритого коду і віримо, що доступність цього бенчмарку для всіх допоможе нам і надалі розширювати можливості кодування наших LLM.» – @b_roziere, науковий співробітник @MistralAI: Повні деталі наведені в блозі: