Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estamos apenas arranhando a superfície das avaliações. A grande maioria das tarefas do trabalhador do conhecimento não é capturada nos benchmarks mais populares de hoje.
Embora a qualidade dos recursos possa ser extrapolada a partir de avaliações de codificação e matemática existentes, elas não representam totalmente a complexidade dessas tarefas do mundo real.
Em breve entraremos em uma era em que ir atrás do trabalho em serviços jurídicos, financeiros, manufatura, contabilidade, consultoria,
e muitos outros campos de alto valor serão tão valorizados quanto a codificação.

5 de set., 07:02
Muitas vezes, a capacidade do pesquisador de iterar em uma capacidade é limitada por nossa capacidade de medir essa capacidade. Eu acredito que o progresso é mais limitado em termos de avaliação do que as pessoas pensam.
Às vezes, as avaliações parecem causais. o SWE-Bench seguiu a codificação agêntica ou a codificação agêntica seguiu o SWE-bench?
Muitas vezes ouvimos falar sobre a resolução de tarefas de horizonte muito longo (semanas, meses) ou aprendizado contínuo sendo necessário para AGI, etc. No entanto, onde estão as avaliações para provar as deficiências de nossos modelos aqui?
eu adoraria que mais pessoas trabalhassem em avaliações completas de AGI, avaliações que realmente rastreiam valor econômico e impacto, tarefas de um mês, etc.
4,68K
Melhores
Classificação
Favoritos