Tuskin raapaisemme pintaa evaleissa. Merkittävä osa tietotyöläisten tehtävistä ei sisälly nykypäivän suosituimpiin vertailuarvoihin. Vaikka asiaankuuluvat ominaisuudet voidaan usein ekstrapoloida olemassa olevista koodaus- ja matemaattisista valesteista, ne eivät täysin edusta todellisten tehtävien monimutkaisuutta monilla aloilla, kuten lakiasioissa, rahoituspalveluissa, kirjanpidossa tai konsultoinnissa. Astumme pian aikakauteen, jossa näiden työnkulkujen tavoittelu on yhtä arvokasta kuin koodaus. Tämä tulee olemaan valtava avaus tekoälyagenttien seuraavalle aallolle yrityksessä.
will depue
will depue5.9. klo 07.02
Usein tutkijan kykyä iteroida kykyä rajoittaa kykymme mitata kyseistä kykyä. Uskon, että edistys on rajoitetumpaa kuin ihmiset luulevat. Joskus evalit tuntuvat kausaalisilta. noudattiko SWE-Bench agenttikoodausta vai seurasiko agenttikoodaus SWE-penchiä? Kuulemme usein todella pitkän aikavälin tehtävien (viikkojen, kuukausien) ratkaisemisesta tai jatkuvan oppimisen tarpeesta AGI:lle jne. Mutta missä ovat malliemme puutteet todistavat? Haluaisin, että useammat ihmiset työskentelisivät AGI-täydellisten evaalien parissa, evaleissa, jotka todella seuraavat taloudellista arvoa ja vaikutusta, kuukauden mittaisissa tehtävissä jne.
82,25K