Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Schopnost výzkumníka iterovat schopnost je často omezena naší schopností tuto schopnost měřit. Věřím, že pokrok je více omezený na eval, než si lidé myslí.
Někdy se Evalové cítí kauzálně. Řídil se SWE-Bench agentickým kódováním, nebo agentním kódováním SWE-bench?
Často slýcháme o tom, že pro AGI je potřeba řešit opravdu dlouhodobé úlohy (týdny, měsíce) nebo že je potřeba se neustále učit atd. Kde jsou ale EVAL, aby dokázaly nedostatky našich modelů tady?
Byl bych rád, kdyby na AGI-kompletních hodnoceních, hodnoceních, která skutečně sledují ekonomickou hodnotu a dopad, měsíčních úkolech atd. pracovalo více lidí.
149,12K
Top
Hodnocení
Oblíbené