DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Cline

Convertemos sua inferência em código de produção.

A OpenAI foi clara ao afirmar que as avaliações devem "tornar objetivos difusos específicos e explícitos", e que as avaliações fronteiriças precisam ser combinadas com avaliações contextuais que correspondam a fluxos de trabalho reais, em vez de playgrounds de prompts: O que @shyamalanadkat, chefe de avaliações aplicadas @OpenAI, descreve é o mesmo ciclo que queremos para agentes de codificação com cline-bench: um conjunto dourado compartilhado de tarefas difíceis e reais de codificação, onde modelos enfrentavam dificuldades e humanos precisavam intervir, embalados como ambientes reproduzíveis para que laboratórios e equipes pudessem especificar como é "ótimo", medir desempenho em condições reais, e melhorar aprendendo com casos concretos de falha: Se você quiser o contexto completo de como a OpenAI pensa sobre avaliações, o guia está aqui:

Estamos anunciando o cline-bench, um benchmark open source real para codificação agente. O Cline-Bench foi construído a partir de tarefas de engenharia do mundo real feitas por desenvolvedores participantes, onde modelos de fronteira falharam e humanos tiveram que intervir. Cada tarefa aceita se torna um ambiente RL totalmente reproduzível com um snapshot inicial do repositório, um prompt real e testes de verdade no terreno do código que foi enviado no final. Para laboratórios e pesquisadores, isso significa: > você pode avaliar modelos em trabalhos de engenharia genuínos, não em quebra-cabeças de leetcode. > você encontra ambientes compatíveis com Harbor e ferramentas modernas de avaliação para comparação lado a lado. > você pode usar as mesmas tarefas para SFT e RL, para que treinamento e avaliação permaneçam fundamentados em fluxos de trabalho reais de engenharia. Hoje estamos abrindo contribuições e começando a coletar tarefas através do Provedor Cline. A participação é opcional e limitada a repositórios open source. Quando uma tarefa difícil bloqueia um modelo e você intervém, essa falha pode ser transformada em um ambiente padronizado que toda a comunidade pode estudar, comparar e treinar. Se você trabalha em problemas difíceis de código aberto, especialmente OSS comercial, gostaria de convidá-lo pessoalmente a ajudar. Estamos comprometendo US$ 1 milhão para patrocinar mantenedores de código aberto para participar da iniciativa cline-bench. "O banco cline é um ótimo exemplo de como benchmarks abertos e reais podem impulsionar todo o ecossistema para frente. Tarefas de codificação de alta qualidade e verificadas, baseadas em fluxos de trabalho reais de desenvolvedores, são exatamente o que precisamos para medir modelos de fronteira de forma significativa, descobrir modos de falha e avançar o estado da arte." – @shyamalanadkat, Chefe de Avaliações Aplicadas @OpenAI "Nous Research é focada em treinar e proliferar modelos que se destacam em tarefas do mundo real. O Cline-Bench será uma ferramenta fundamental em nossos esforços para maximizar o desempenho e compreender as capacidades dos nossos modelos." – @Teknium, Chefe de Treinamento Pós-@nousresearch "Somos grandes fãs de tudo que a Cline tem feito para fortalecer o ecossistema de IA open source, e estamos extremamente animados para apoiar a versão cline-bench. Ambientes abertos de alta qualidade para codificação agentica são extremamente raros. Este lançamento será fundamental tanto como avaliação de capacidades quanto como um banco de testes pós-treinamento para tarefas reais desafiadoras, avançando nosso entendimento coletivo e capacidades em torno do desenvolvimento autônomo de software." – @willccbb, Líder de Pesquisa @PrimeIntellect: "Compartilhamos o compromisso de Cline com o código aberto e acreditamos que tornar esse benchmark disponível para todos nos ajudará a continuar impulsionando as capacidades de codificação inovadoras dos nossos LLMs." – @b_roziere, Cientista Pesquisador @MistralAI: Detalhes completos estão no blog:

Melhores

Classificação

Favoritos