Usein tutkijan kykyä iteroida kykyä rajoittaa kykymme mitata kyseistä kykyä. Uskon, että edistys on rajoitetumpaa kuin ihmiset luulevat. Joskus evalit tuntuvat kausaalisilta. noudattiko SWE-Bench agenttikoodausta vai seurasiko agenttikoodaus SWE-penchiä? Kuulemme usein todella pitkän aikavälin tehtävien (viikkojen, kuukausien) ratkaisemisesta tai jatkuvan oppimisen tarpeesta AGI:lle jne. Mutta missä ovat malliemme puutteet todistavat? Haluaisin, että useammat ihmiset työskentelisivät AGI-täydellisten evaalien parissa, evaleissa, jotka todella seuraavat taloudellista arvoa ja vaikutusta, kuukauden mittaisissa tehtävissä jne.
149,12K