Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ledwo zaczynamy zgłębiać temat ocen. Znacząca część zadań pracowników wiedzy nie jest uwzględniana w dzisiejszych najpopularniejszych benchmarkach.
Chociaż odpowiednie umiejętności często można wywnioskować z istniejących ocen programistycznych i matematycznych, nie oddają one w pełni złożoności rzeczywistych zadań w wielu dziedzinach, takich jak prawo, usługi finansowe, księgowość czy doradztwo.
Wkrótce wejdziemy w erę, w której dążenie do tych procesów roboczych będzie tak cenione jak programowanie. To będzie ogromne odblokowanie dla następnej fali zastosowań agentów AI w przedsiębiorstwach.

5 wrz, 07:02
często zdolność badacza do iteracji nad zdolnością jest ograniczona przez naszą zdolność do pomiaru tej zdolności. Wierzę, że postęp jest bardziej ograniczony przez ewaluację, niż ludzie myślą.
Czasami ewaluacje wydają się przyczynowe. Czy SWE-Bench podążał za agentic coding, czy agentic coding podążał za SWE-bench?
Często słyszymy o rozwiązywaniu naprawdę długoterminowych zadań (tygodnie, miesiące) lub o potrzebie ciągłego uczenia się dla AGI itd. A gdzie są ewaluacje, które udowadniają niedociągnięcia naszych modeli w tym zakresie?
Chciałbym, aby więcej osób pracowało nad ewaluacjami AGI-complete, ewaluacjami, które naprawdę śledzą wartość ekonomiczną i wpływ, zadaniami trwającymi miesiąc itd.
82,25K
Najlepsze
Ranking
Ulubione