Schopnost výzkumníka iterovat schopnost je často omezena naší schopností tuto schopnost měřit. Věřím, že pokrok je více omezený na eval, než si lidé myslí. Někdy se Evalové cítí kauzálně. Řídil se SWE-Bench agentickým kódováním, nebo agentním kódováním SWE-bench? Často slýcháme o tom, že pro AGI je potřeba řešit opravdu dlouhodobé úlohy (týdny, měsíce) nebo že je potřeba se neustále učit atd. Kde jsou ale EVAL, aby dokázaly nedostatky našich modelů tady? Byl bych rád, kdyby na AGI-kompletních hodnoceních, hodnoceních, která skutečně sledují ekonomickou hodnotu a dopad, měsíčních úkolech atd. pracovalo více lidí.
149,12K