Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ledwo zaczynamy zgłębiać temat ocen. Zdecydowana większość zadań pracowników wiedzy nie jest uwzględniana w dzisiejszych najpopularniejszych benchmarkach.
Chociaż jakość umiejętności często można ekstrapolować z istniejących ocen kodowania i matematyki, nie oddają one w pełni złożoności tych zadań w rzeczywistym świecie.
Wkrótce wejdziemy w erę, w której praca w dziedzinach prawnych, usług finansowych, produkcji, księgowości, doradztwa oraz wielu innych wysoko cenionych branż będzie tak samo ceniona jak kodowanie.

5 wrz, 07:02
często zdolność badacza do iteracji nad zdolnością jest ograniczona przez naszą zdolność do pomiaru tej zdolności. Wierzę, że postęp jest bardziej ograniczony przez ewaluację, niż ludzie myślą.
Czasami ewaluacje wydają się przyczynowe. Czy SWE-Bench podążał za agentic coding, czy agentic coding podążał za SWE-bench?
Często słyszymy o rozwiązywaniu naprawdę długoterminowych zadań (tygodnie, miesiące) lub o potrzebie ciągłego uczenia się dla AGI itd. A gdzie są ewaluacje, które udowadniają niedociągnięcia naszych modeli w tym zakresie?
Chciałbym, aby więcej osób pracowało nad ewaluacjami AGI-complete, ewaluacjami, które naprawdę śledzą wartość ekonomiczną i wpływ, zadaniami trwającymi miesiąc itd.
4,7K
Najlepsze
Ranking
Ulubione