Tuskin raapaisemme pintaa evaleissa. Suurinta osaa tietotyöläisten tehtävistä ei ole tallennettu nykypäivän suosituimpiin vertailuarvoihin. Vaikka ominaisuuksien laatu voidaan usein ekstrapoloida olemassa olevista koodaus- ja matematiikkatauluista, ne eivät täysin edusta näiden todellisten tehtävien monimutkaisuutta. Astumme pian aikakauteen, jossa etsimme työtä lakiasioissa, rahoituspalveluissa, valmistuksessa, kirjanpidossa, konsultoinnissa, ja monet muut arvokkaat alat ovat yhtä arvostettuja kuin koodaus.
will depue
will depue5.9. klo 07.02
Usein tutkijan kykyä iteroida kykyä rajoittaa kykymme mitata kyseistä kykyä. Uskon, että edistys on rajoitetumpaa kuin ihmiset luulevat. Joskus evalit tuntuvat kausaalisilta. noudattiko SWE-Bench agenttikoodausta vai seurasiko agenttikoodaus SWE-penchiä? Kuulemme usein todella pitkän aikavälin tehtävien (viikkojen, kuukausien) ratkaisemisesta tai jatkuvan oppimisen tarpeesta AGI:lle jne. Mutta missä ovat malliemme puutteet todistavat? Haluaisin, että useammat ihmiset työskentelisivät AGI-täydellisten evaalien parissa, evaleissa, jotka todella seuraavat taloudellista arvoa ja vaikutusta, kuukauden mittaisissa tehtävissä jne.
4,7K