Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estamos apenas a arranhar a superfície das avaliações. Uma parte significativa das tarefas dos trabalhadores do conhecimento não está capturada nos benchmarks mais populares de hoje.
Embora capacidades relevantes possam frequentemente ser extrapoladas a partir de avaliações existentes de codificação e matemática, estas não representam totalmente a complexidade das tarefas do mundo real em muitos campos, como jurídico, serviços financeiros, contabilidade ou consultoria.
Em breve, entraremos numa era em que perseguir esses fluxos de trabalho será tão valorizado quanto a codificação. Isso será uma grande libertação para a próxima onda de casos de uso de agentes de IA nas empresas.

5/09, 07:02
frequentemente, a capacidade dos pesquisadores de iterar sobre uma capacidade é limitada pela nossa capacidade de medir essa capacidade. eu realmente acredito que o progresso é mais limitado por avaliações do que as pessoas pensam.
às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agentic, ou a codificação agentic seguiu o SWE-bench?
frequentemente ouvimos falar sobre a resolução de tarefas de longo prazo (semanas, meses), ou que a aprendizagem contínua é necessária para a AGI, etc. no entanto, onde estão as avaliações para provar as deficiências dos nossos modelos aqui?
eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam o valor econômico e o impacto, tarefas de um mês, etc.
82,25K
Top
Classificação
Favoritos