Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Na evalech se sotva škrábeme po povrchu. Drtivá většina úkolů znalostních pracovníků není zachycena v dnešních nejpopulárnějších srovnávacích testech.
I když lze kvalitu schopností často extrapolovat z existujících hodnocení kódování a matematiky, tyto testy plně nereprezentují složitost těchto úloh v reálném světě.
Brzy vstoupíme do éry, kdy půjdeme po práci v právních, finančních službách, výrobě, účetnictví, poradenství,
a mnoho dalších oborů s vysokou hodnotou bude stejně ceněno jako kódování.

5. 9. 07:02
Schopnost výzkumníka iterovat schopnost je často omezena naší schopností tuto schopnost měřit. Věřím, že pokrok je více omezený na eval, než si lidé myslí.
Někdy se Evalové cítí kauzálně. Řídil se SWE-Bench agentickým kódováním, nebo agentním kódováním SWE-bench?
Často slýcháme o tom, že pro AGI je potřeba řešit opravdu dlouhodobé úlohy (týdny, měsíce) nebo že je potřeba se neustále učit atd. Kde jsou ale EVAL, aby dokázaly nedostatky našich modelů tady?
Byl bych rád, kdyby na AGI-kompletních hodnoceních, hodnoceních, která skutečně sledují ekonomickou hodnotu a dopad, měsíčních úkolech atd. pracovalo více lidí.
4,69K
Top
Hodnocení
Oblíbené