DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Cline

Vă convertim inferența în cod de producție.

OpenAI a fost clar că evaluările ar trebui să "facă obiectivele neclare specifice și explicite" și că evaluările de frontieră trebuie asociate cu evaluări contextuale care să corespundă fluxurilor reale, nu cu locurile de joacă cu prompturi: Ceea ce descrie @shyamalanadkat, șeful evaluărilor aplicate @OpenAI, este același ciclu pe care îl dorim pentru agenții de codare cu cline-bench: un set de aur comun de sarcini dificile de codare din lumea reală, unde modelele au avut dificultăți și oamenii au trebuit să intervină, ambalate ca medii reproductibile, astfel încât laboratoarele și echipele să poată specifica cum arată "grozav", să măsoare performanța în condiții reale, și îmbunătățiri învățând din cazurile concrete de defectare: Dacă vrei să afli tot contextul despre cum gândește OpenAI evaluările, ghidul este aici:

Anunțăm cline-bench, un benchmark open source real pentru codarea agentică. Cline-bench este construit din sarcini de inginerie reale realizate de dezvoltatorii participanți, unde modelele de frontieră au eșuat și oamenii au trebuit să intervină. Fiecare sarcină acceptată devine un mediu RL complet reproductibil, cu un snapshot al repo-ului de pornire, un prompt real și teste de adevăr la bază din codul care a fost livrat în cele din urmă. Pentru laboratoare și cercetători, aceasta înseamnă: > poți evalua modele pe muncă inginerească autentică, nu pe puzzle-uri leetcode. > ai medii compatibile cu Harbor și unelte moderne de evaluare pentru comparație comparativ unul lângă altul. > poți folosi aceleași sarcini pentru SFT și RL, astfel încât instruirea și evaluarea să rămână ancorate în fluxurile reale de lucru inginerești. Astăzi deschidem contribuțiile și începem să colectăm sarcini prin intermediul Cline Provider. Participarea este opțională și limitată la depozitele open source. Când o sarcină dificilă blochează un model și tu intervii, acel eșec poate fi transformat într-un mediu standardizat pe care întreaga comunitate îl poate studia, evalua și antrena. Dacă lucrezi la probleme open source dificile, în special OSS comercial, aș dori să te invit personal să mă ajuți. Angajăm 1 milion de dolari pentru a sponsoriza întreținătorii open source care să participe la inițiativa cline-bench. "Cline-bench este un exemplu excelent despre cum reperele deschise, reale, pot avansa întregul ecosistem. Sarcinile de codare de înaltă calitate, verificate, bazate pe fluxurile de lucru reale ale dezvoltatorilor, sunt exact ceea ce avem nevoie pentru a măsura în mod semnificativ modelele de frontieră, a descoperi modurile de eșec și a împinge stadiul artei." – @shyamalanadkat, Șeful Evaluărilor Aplicate @OpenAI "Nous Research se concentrează pe antrenarea și proliferarea modelelor care excelează în sarcini reale. Cline-bench va fi un instrument esențial în eforturile noastre de a maximiza performanța și de a înțelege capacitățile modelelor noastre." – @Teknium, Șeful Post-Training @nousresearch "Suntem mari fani ai tot ceea ce a făcut Cline pentru a împuternici ecosistemul AI open source și suntem extrem de entuziasmați să susținem lansarea cline-bench. Mediile deschise de înaltă calitate pentru codarea agentică sunt extrem de rare. Această versiune va avea un impact semnificativ atât ca evaluare a capacităților, cât și ca un teren de testare post-antrenament pentru sarcini reale provocatoare, avansând înțelegerea și capacitățile noastre colective privind dezvoltarea software autonomă." – @willccbb, Lider de Cercetare @PrimeIntellect: "Împărtășim angajamentul lui Cline față de open source și credem că punerea la dispoziția acestui benchmark tuturor ne va ajuta să continuăm să depășim capacitățile de codare de frontieră ale LLM-urilor noastre." – @b_roziere, cercetător @MistralAI: Detalii complete se găsesc pe blog:

Limită superioară

Clasament

Favorite