Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

pash
В даний час керівник AI @cline | Попередня @meta Мережа знань | Творець Сховища // @usc Галун
Ми оголошуємо про cline-bench — реальний відкритий бенчмарк для агентного кодування.
Cline-Bench побудований на основі реальних інженерних завдань від учасників розробників, де Frontier Models зазнали невдачі, і людям довелося втрутитися.
Кожне прийняте завдання стає повністю відтворюваним RL-середовищем із початковим знімком репозиторії, реальним запитом і перевірками істинності з коду, який зрештою був відправлений.
Для лабораторій і дослідників це означає:
> можна оцінювати моделі на основі справжньої інженерної роботи, а не головоломок Leetcode.
> отримаєте середовища, сумісні з Harbor і сучасними інструментами для порівняння поруч.
> можна використовувати ті самі завдання для SFT і RL, щоб навчання та оцінювання залишалися на основі реальних інженерних робочих процесів.
Сьогодні ми відкриваємо внески та починаємо збирати завдання через Cline Provider. Участь є необов'язковою і обмежена відкритими репозиторіями.
Коли складне завдання ставить модель у глухий кут, і ви втручаєтеся, ця невдача може перетворитися на стандартизоване середовище, яке вся спільнота може вивчати, оцінювати та тренуватися.
Якщо ви працюєте над складними задачами з відкритим кодом, особливо з комерційним OSS, я особисто хотів би запросити вас допомогти. Ми зобов'язуємося інвестувати $1 млн на підтримку open source підтримувачів для участі в ініціативі cline-bench.
«Cline-bench — чудовий приклад того, як відкриті, реальні еталони можуть рухати всю екосистему вперед. Якісні, перевірені завдання з кодування, засновані на реальних робочих процесах розробників, — це саме те, що нам потрібно для змістовного вимірювання передових моделей, виявлення режимів збою та просування сучасних технологій.»
– @shyamalanadkat, керівник відділу прикладних оцінок @OpenAI
"Nous Research зосереджені на навчанні та розмноженні моделей, які чудово справляються з реальними завданнями. Cline-Bench стане невід'ємним інструментом у наших зусиллях щодо максимізації продуктивності та розуміння можливостей наших моделей.»
– @Teknium, керівник післянавчального @nousresearch
«Ми великі прихильники всього, що Cline робить для розширення можливостей екосистеми відкритого ШІ, і надзвичайно раді підтримати випуск cline-bench. Високоякісні відкриті середовища для агентного кодування трапляються надзвичайно рідко. Цей реліз матиме велике значення як оцінка можливостей, так і як посттренувальний тест-майданчик для складних реальних завдань, розширюючи наше колективне розуміння та можливості автономної розробки програмного забезпечення.»
– @willccbb, керівник досліджень @PrimeIntellect:
«Ми поділяємо прагнення Cline до відкритого коду і віримо, що доступність цього бенчмарку для всіх допоможе нам і надалі розширювати можливості кодування наших LLM.»
– @b_roziere, науковий співробітник @MistralAI:
Повні деталі наведені в блозі:

99,68K
До речі, реклама не потрібна

Cline18 лист., 09:19
MiniMax M2 знову безкоштовний у Клайн!
Одна з провідних відкритих моделей для кодування та агентних робочих процесів із переплетеним мисленням. Швидке висновки та ефективність для складних завдань. Вільний на обмежений час. Ідеальний привід спробувати.

6,58K
Найкращі
Рейтинг
Вибране


