Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Usein tutkijan kykyä iteroida kykyä rajoittaa kykymme mitata kyseistä kykyä. Uskon, että edistys on rajoitetumpaa kuin ihmiset luulevat.
Joskus evalit tuntuvat kausaalisilta. noudattiko SWE-Bench agenttikoodausta vai seurasiko agenttikoodaus SWE-penchiä?
Kuulemme usein todella pitkän aikavälin tehtävien (viikkojen, kuukausien) ratkaisemisesta tai jatkuvan oppimisen tarpeesta AGI:lle jne. Mutta missä ovat malliemme puutteet todistavat?
Haluaisin, että useammat ihmiset työskentelisivät AGI-täydellisten evaalien parissa, evaleissa, jotka todella seuraavat taloudellista arvoa ja vaikutusta, kuukauden mittaisissa tehtävissä jne.
149,12K
Johtavat
Rankkaus
Suosikit