Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estamos anunciando o cline-bench, um benchmark open source real para codificação agente.
O Cline-Bench foi construído a partir de tarefas de engenharia do mundo real feitas por desenvolvedores participantes, onde modelos de fronteira falharam e humanos tiveram que intervir.
Cada tarefa aceita se torna um ambiente RL totalmente reproduzível com um snapshot inicial do repositório, um prompt real e testes de verdade no terreno do código que foi enviado no final.
Para laboratórios e pesquisadores, isso significa:
> você pode avaliar modelos em trabalhos de engenharia genuínos, não em quebra-cabeças de leetcode.
> você encontra ambientes compatíveis com Harbor e ferramentas modernas de avaliação para comparação lado a lado.
> você pode usar as mesmas tarefas para SFT e RL, para que treinamento e avaliação permaneçam fundamentados em fluxos de trabalho reais de engenharia.
Hoje estamos abrindo contribuições e começando a coletar tarefas através do Provedor Cline. A participação é opcional e limitada a repositórios open source.
Quando uma tarefa difícil bloqueia um modelo e você intervém, essa falha pode ser transformada em um ambiente padronizado que toda a comunidade pode estudar, comparar e treinar.
Se você trabalha em problemas difíceis de código aberto, especialmente OSS comercial, gostaria de convidá-lo pessoalmente a ajudar. Estamos comprometendo US$ 1 milhão para patrocinar mantenedores de código aberto para participar da iniciativa cline-bench.
"O banco cline é um ótimo exemplo de como benchmarks abertos e reais podem impulsionar todo o ecossistema para frente. Tarefas de codificação de alta qualidade e verificadas, baseadas em fluxos de trabalho reais de desenvolvedores, são exatamente o que precisamos para medir modelos de fronteira de forma significativa, descobrir modos de falha e avançar o estado da arte."
– @shyamalanadkat, Chefe de Avaliações Aplicadas @OpenAI
"Nous Research é focada em treinar e proliferar modelos que se destacam em tarefas do mundo real. O Cline-Bench será uma ferramenta fundamental em nossos esforços para maximizar o desempenho e compreender as capacidades dos nossos modelos."
– @Teknium, Chefe de Treinamento Pós-@nousresearch
"Somos grandes fãs de tudo que a Cline tem feito para fortalecer o ecossistema de IA open source, e estamos extremamente animados para apoiar a versão cline-bench. Ambientes abertos de alta qualidade para codificação agentica são extremamente raros. Este lançamento será fundamental tanto como avaliação de capacidades quanto como um banco de testes pós-treinamento para tarefas reais desafiadoras, avançando nosso entendimento coletivo e capacidades em torno do desenvolvimento autônomo de software."
– @willccbb, Líder de Pesquisa @PrimeIntellect:
"Compartilhamos o compromisso de Cline com o código aberto e acreditamos que tornar esse benchmark disponível para todos nos ajudará a continuar impulsionando as capacidades de codificação inovadoras dos nossos LLMs."
– @b_roziere, Cientista Pesquisador @MistralAI:
Detalhes completos estão no blog:

Melhores
Classificação
Favoritos

