Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Cline
Convertemos sua inferência em código de produção.
Cline 3.38.3 já está disponível!
Novo:
- Funcionalidade e interface expandida dos Hooks
- Código Grok 4.1 & Grok adicionado ao XAI
- Ferramenta nativa que chama para Baseten & Kimi K2
- Nível de pensamento para a prévia do Gemini 3.0 Pro
Correções para comandos com barra, Vértice, terminal Windows e raciocínio/raciocínio entre provedores
9,83K
A OpenAI foi clara ao afirmar que as avaliações devem "tornar objetivos difusos específicos e explícitos", e que as avaliações fronteiriças precisam ser combinadas com avaliações contextuais que correspondam a fluxos de trabalho reais, em vez de playgrounds de prompts:
O que @shyamalanadkat, chefe de avaliações aplicadas @OpenAI, descreve é o mesmo ciclo que queremos para agentes de codificação com cline-bench: um conjunto dourado compartilhado de tarefas difíceis e reais de codificação, onde modelos enfrentavam dificuldades e humanos precisavam intervir, embalados como ambientes reproduzíveis para que laboratórios e equipes pudessem especificar como é "ótimo", medir desempenho em condições reais, e melhorar aprendendo com casos concretos de falha:
Se você quiser o contexto completo de como a OpenAI pensa sobre avaliações, o guia está aqui:



pash21 de nov., 03:54
Estamos anunciando o cline-bench, um benchmark open source real para codificação agente.
O Cline-Bench foi construído a partir de tarefas de engenharia do mundo real feitas por desenvolvedores participantes, onde modelos de fronteira falharam e humanos tiveram que intervir.
Cada tarefa aceita se torna um ambiente RL totalmente reproduzível com um snapshot inicial do repositório, um prompt real e testes de verdade no terreno do código que foi enviado no final.
Para laboratórios e pesquisadores, isso significa:
> você pode avaliar modelos em trabalhos de engenharia genuínos, não em quebra-cabeças de leetcode.
> você encontra ambientes compatíveis com Harbor e ferramentas modernas de avaliação para comparação lado a lado.
> você pode usar as mesmas tarefas para SFT e RL, para que treinamento e avaliação permaneçam fundamentados em fluxos de trabalho reais de engenharia.
Hoje estamos abrindo contribuições e começando a coletar tarefas através do Provedor Cline. A participação é opcional e limitada a repositórios open source.
Quando uma tarefa difícil bloqueia um modelo e você intervém, essa falha pode ser transformada em um ambiente padronizado que toda a comunidade pode estudar, comparar e treinar.
Se você trabalha em problemas difíceis de código aberto, especialmente OSS comercial, gostaria de convidá-lo pessoalmente a ajudar. Estamos comprometendo US$ 1 milhão para patrocinar mantenedores de código aberto para participar da iniciativa cline-bench.
"O banco cline é um ótimo exemplo de como benchmarks abertos e reais podem impulsionar todo o ecossistema para frente. Tarefas de codificação de alta qualidade e verificadas, baseadas em fluxos de trabalho reais de desenvolvedores, são exatamente o que precisamos para medir modelos de fronteira de forma significativa, descobrir modos de falha e avançar o estado da arte."
– @shyamalanadkat, Chefe de Avaliações Aplicadas @OpenAI
"Nous Research é focada em treinar e proliferar modelos que se destacam em tarefas do mundo real. O Cline-Bench será uma ferramenta fundamental em nossos esforços para maximizar o desempenho e compreender as capacidades dos nossos modelos."
– @Teknium, Chefe de Treinamento Pós-@nousresearch
"Somos grandes fãs de tudo que a Cline tem feito para fortalecer o ecossistema de IA open source, e estamos extremamente animados para apoiar a versão cline-bench. Ambientes abertos de alta qualidade para codificação agentica são extremamente raros. Este lançamento será fundamental tanto como avaliação de capacidades quanto como um banco de testes pós-treinamento para tarefas reais desafiadoras, avançando nosso entendimento coletivo e capacidades em torno do desenvolvimento autônomo de software."
– @willccbb, Líder de Pesquisa @PrimeIntellect:
"Compartilhamos o compromisso de Cline com o código aberto e acreditamos que tornar esse benchmark disponível para todos nos ajudará a continuar impulsionando as capacidades de codificação inovadoras dos nossos LLMs."
– @b_roziere, Cientista Pesquisador @MistralAI:
Detalhes completos estão no blog:

6,47K
Ambientes abertos de alta qualidade para codificação agential ainda são raros.
O Cline-Bench tem como objetivo preencher essa lacuna servindo tanto como suíte de avaliação quanto como banco de testes pós-treinamento para tarefas difíceis e práticas de software.
Por isso, ela se dirige a pessoas como @willccbb, líder de pesquisa na @PrimeIntellect, que se preocupam com problemas concretos e reproduzíveis que impulsionam o desenvolvimento de software autônomo.

5,52K
Melhores
Classificação
Favoritos

