Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estamos apenas a arranhar a superfície das avaliações. A vasta maioria das tarefas dos trabalhadores do conhecimento não está capturada nos benchmarks mais populares de hoje.
Embora a qualidade das capacidades possa frequentemente ser extrapolada a partir das avaliações existentes de codificação e matemática, estas não representam totalmente a complexidade dessas tarefas do mundo real.
Em breve, entraremos numa era em que buscar trabalho nas áreas legal, serviços financeiros, manufatura, contabilidade, consultoria,
e muitas outras áreas de alto valor será tão valorizado quanto a codificação.

5/09, 07:02
frequentemente, a capacidade dos pesquisadores de iterar sobre uma capacidade é limitada pela nossa capacidade de medir essa capacidade. eu realmente acredito que o progresso é mais limitado por avaliações do que as pessoas pensam.
às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agentic, ou a codificação agentic seguiu o SWE-bench?
frequentemente ouvimos falar sobre a resolução de tarefas de longo prazo (semanas, meses), ou que a aprendizagem contínua é necessária para a AGI, etc. no entanto, onde estão as avaliações para provar as deficiências dos nossos modelos aqui?
eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam o valor econômico e o impacto, tarefas de um mês, etc.
4,7K
Top
Classificação
Favoritos