Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
często zdolność badacza do iteracji nad zdolnością jest ograniczona przez naszą zdolność do pomiaru tej zdolności. Wierzę, że postęp jest bardziej ograniczony przez ewaluację, niż ludzie myślą.
Czasami ewaluacje wydają się przyczynowe. Czy SWE-Bench podążał za agentic coding, czy agentic coding podążał za SWE-bench?
Często słyszymy o rozwiązywaniu naprawdę długoterminowych zadań (tygodnie, miesiące) lub o potrzebie ciągłego uczenia się dla AGI itd. A gdzie są ewaluacje, które udowadniają niedociągnięcia naszych modeli w tym zakresie?
Chciałbym, aby więcej osób pracowało nad ewaluacjami AGI-complete, ewaluacjami, które naprawdę śledzą wartość ekonomiczną i wpływ, zadaniami trwającymi miesiąc itd.
161,76K
Najlepsze
Ranking
Ulubione