We krabben nauwelijks aan de oppervlakte van evaluaties. De overgrote meerderheid van de taken van kenniswerkers wordt niet vastgelegd in de meest populaire benchmarks van vandaag. Hoewel de kwaliteit van capaciteiten vaak kan worden geëxtrapoleerd uit bestaande codeer- en wiskunde-evaluaties, vertegenwoordigen deze niet volledig de complexiteit van deze taken in de echte wereld. We zullen binnenkort een tijdperk ingaan waarin het nastreven van werk in juridische, financiële diensten, productie, boekhouding, consulting, en vele andere hoog gewaardeerde gebieden net zo gewild zal zijn als coderen.
will depue
will depue5 sep, 07:02
vaak is het vermogen van onderzoekers om te itereren op een capaciteit beperkt door ons vermogen om die capaciteit te meten. Ik geloof echt dat vooruitgang meer evaluatie-beperkt is dan mensen denken. soms voelen evaluaties causaal aan. Volgde SWE-Bench agentic coding, of volgde agentic coding SWE-Bench? we horen vaak over het oplossen van echt lange horizon taken (weken, maanden), of dat continue leren nodig is voor AGI, enz. maar waar zijn de evaluaties om de tekortkomingen van onze modellen hier te bewijzen? ik zou willen dat meer mensen werken aan AGI-volledige evaluaties, evaluaties die echt economische waarde en impact volgen, taken van een maand, enz.
4,68K