Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tuskin raapaisemme pintaa evaleissa. Merkittävä osa tietotyöläisten tehtävistä ei sisälly nykypäivän suosituimpiin vertailuarvoihin.
Vaikka asiaankuuluvat ominaisuudet voidaan usein ekstrapoloida olemassa olevista koodaus- ja matemaattisista valesteista, ne eivät täysin edusta todellisten tehtävien monimutkaisuutta monilla aloilla, kuten lakiasioissa, rahoituspalveluissa, kirjanpidossa tai konsultoinnissa.
Astumme pian aikakauteen, jossa näiden työnkulkujen tavoittelu on yhtä arvokasta kuin koodaus. Tämä tulee olemaan valtava avaus tekoälyagenttien seuraavalle aallolle yrityksessä.

5.9. klo 07.02
Usein tutkijan kykyä iteroida kykyä rajoittaa kykymme mitata kyseistä kykyä. Uskon, että edistys on rajoitetumpaa kuin ihmiset luulevat.
Joskus evalit tuntuvat kausaalisilta. noudattiko SWE-Bench agenttikoodausta vai seurasiko agenttikoodaus SWE-penchiä?
Kuulemme usein todella pitkän aikavälin tehtävien (viikkojen, kuukausien) ratkaisemisesta tai jatkuvan oppimisen tarpeesta AGI:lle jne. Mutta missä ovat malliemme puutteet todistavat?
Haluaisin, että useammat ihmiset työskentelisivät AGI-täydellisten evaalien parissa, evaleissa, jotka todella seuraavat taloudellista arvoa ja vaikutusta, kuukauden mittaisissa tehtävissä jne.
82,25K
Johtavat
Rankkaus
Suosikit