Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Na evalech se sotva škrábeme po povrchu. Značná část úkolů znalostních pracovníků není zachycena v dnešních nejpopulárnějších srovnávacích testech.
I když lze relevantní funkce často extrapolovat z existujících hodnocení kódování a matematiky, nepředstavují plně složitost úloh reálného světa v mnoha oblastech, jako je právo, finanční služby, účetnictví nebo poradenství.
Brzy vstoupíme do éry, kdy bude sledování těchto pracovních postupů stejně ceněno jako kódování. Bude to obrovské otevření pro další vlnu případů použití agentů AI v podnicích.

5. 9. 07:02
Schopnost výzkumníka iterovat schopnost je často omezena naší schopností tuto schopnost měřit. Věřím, že pokrok je více omezený na eval, než si lidé myslí.
Někdy se Evalové cítí kauzálně. Řídil se SWE-Bench agentickým kódováním, nebo agentním kódováním SWE-bench?
Často slýcháme o tom, že pro AGI je potřeba řešit opravdu dlouhodobé úlohy (týdny, měsíce) nebo že je potřeba se neustále učit atd. Kde jsou ale EVAL, aby dokázaly nedostatky našich modelů tady?
Byl bych rád, kdyby na AGI-kompletních hodnoceních, hodnoceních, která skutečně sledují ekonomickou hodnotu a dopad, měsíčních úkolech atd. pracovalo více lidí.
82,26K
Top
Hodnocení
Oblíbené