Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
frequentemente, a capacidade dos pesquisadores de iterar sobre uma capacidade é limitada pela nossa capacidade de medir essa capacidade. eu realmente acredito que o progresso é mais limitado por avaliações do que as pessoas pensam.
às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agentic, ou a codificação agentic seguiu o SWE-bench?
frequentemente ouvimos falar sobre a resolução de tarefas de longo prazo (semanas, meses), ou que a aprendizagem contínua é necessária para a AGI, etc. no entanto, onde estão as avaliações para provar as deficiências dos nossos modelos aqui?
eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam o valor econômico e o impacto, tarefas de um mês, etc.
149,12K
Top
Classificação
Favoritos