często zdolność badacza do iteracji nad zdolnością jest ograniczona przez naszą zdolność do pomiaru tej zdolności. Wierzę, że postęp jest bardziej ograniczony przez ewaluację, niż ludzie myślą. Czasami ewaluacje wydają się przyczynowe. Czy SWE-Bench podążał za agentic coding, czy agentic coding podążał za SWE-bench? Często słyszymy o rozwiązywaniu naprawdę długoterminowych zadań (tygodnie, miesiące) lub o potrzebie ciągłego uczenia się dla AGI itd. A gdzie są ewaluacje, które udowadniają niedociągnięcia naszych modeli w tym zakresie? Chciałbym, aby więcej osób pracowało nad ewaluacjami AGI-complete, ewaluacjami, które naprawdę śledzą wartość ekonomiczną i wpływ, zadaniami trwającymi miesiąc itd.
161,76K