Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Muitas vezes, a capacidade do pesquisador de iterar em uma capacidade é limitada por nossa capacidade de medir essa capacidade. Eu acredito que o progresso é mais limitado em termos de avaliação do que as pessoas pensam.
Às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agêntica ou a codificação agêntica seguiu o SWE-bench?
Muitas vezes ouvimos falar sobre a resolução de tarefas de horizonte muito longo (semanas, meses) ou aprendizado contínuo sendo necessário para AGI, etc. No entanto, onde estão as avaliações para provar as deficiências de nossos modelos aqui?
eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam valor econômico e impacto, tarefas de um mês, etc.
149,15K
Melhores
Classificação
Favoritos