Vi tillkännager cline-bench, en verklig open source-benchmark för agentisk kodning. Cline-Bench byggs av verkliga ingenjörsuppgifter från deltagande utvecklare där frontier-modeller misslyckades och människor var tvungna att kliva in. Varje accepterad uppgift blir en fullt reproducerbar RL-miljö med en start-repo-snapshot, en riktig prompt och sanningstester från den kod som slutligen levererades. För laboratorier och forskare betyder detta: > kan du utvärdera modeller på verkligt ingenjörsarbete, inte leetcode-pussel. > får du miljöer kompatibla med Harbor och modern utvärderingsverktyg för att jämföra sida vid sida. > du kan använda samma uppgifter för SFT och RL så att utbildning och utvärdering förankras i verkliga ingenjörsarbetsflöden. Idag öppnar vi bidrag och börjar samla in uppgifter via Cline Provider. Deltagandet är frivilligt och begränsat till open source-arkiv. När en svår uppgift ställer till det för en modell och du ingriper, kan det misslyckandet förvandlas till en standardiserad miljö som hela samhället kan studera, jämföra och träna på. Om du arbetar med svåra open source-problem, särskilt kommersiell OSS, vill jag personligen bjuda in dig att hjälpa till med. Vi avsätter 1 miljon dollar för att sponsra open source-underhållare som kan delta i cline-bench-initiativet. "Cline-bench är ett utmärkt exempel på hur öppna, verkliga riktmärken kan driva hela ekosystemet framåt. Högkvalitativa, verifierade kodningsuppgifter baserade på faktiska utvecklararbetsflöden är precis vad vi behöver för att meningsfullt mäta frontier-modeller, avslöja felmönster och driva teknikens senaste nivå." – @shyamalanadkat, chef för tillämpade utvärderingar @OpenAI "Nous Research fokuserar på att träna och sprida modeller som utmärker sig i verkliga uppgifter. Cline-Bench kommer att vara ett integrerat verktyg i våra ansträngningar att maximera prestandan och förstå våra modellers kapacitet." – @Teknium, chef för postutbildningen @nousresearch "Vi är stora fans av allt Cline har gjort för att stärka det öppna källkods-AI-ekosystemet, och vi är otroligt entusiastiska över att stödja Cline-bench-lanseringen. Högkvalitativa öppna miljöer för agentisk kodning är extremt ovanliga. Denna version kommer att göra stor skillnad både som en utvärdering av kapaciteter och som en testbädd efter träningen för utmanande verkliga uppgifter, och främja vår gemensamma förståelse och kapacitet kring autonom mjukvaruutveckling." – @willccbb, forskningsledare @PrimeIntellect: "Vi delar Clines engagemang för öppen källkod och tror att att göra denna riktmärke tillgänglig för alla kommer att hjälpa oss att fortsätta driva våra LLM:s kodningsmöjligheter i frontlinjen." – @b_roziere, forskare @MistralAI: Fullständiga detaljer finns i bloggen: