Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Esikoulutuksen aikakaudella internet-tekstillä oli merkitystä. Haluat ensisijaisesti suuren, monipuolisen ja laadukkaan kokoelman Internet-asiakirjoja, joista voit oppia.
Valvotun hienosäädön aikakaudella se oli keskusteluja. Sopimustyöntekijöitä palkataan luomaan vastauksia kysymyksiin, vähän kuten Stack Overflow'ssa / Quorassa tai jne., mutta suunnattu LLM-käyttötapauksiin.
Kumpikaan edellä mainituista ei katoa (imo), mutta tällä vahvistusoppimisen aikakaudella se on nyt ympäristöjä. Toisin kuin edellä mainitut, ne antavat LLM:lle mahdollisuuden todella olla vuorovaikutuksessa - ryhtyä toimiin, nähdä tuloksia jne. Tämä tarkoittaa, että voit toivoa pärjääväsi paljon paremmin kuin tilastoasiantuntijan jäljitelmä. Ja niitä voidaan käyttää sekä mallien koulutukseen että arviointiin. Mutta aivan kuten ennenkin, ydinongelma on nyt se, että tarvitaan laaja, monipuolinen ja laadukas ympäristövalikoima harjoituksiksi, joita vastaan LLM voi harjoitella.
Jollain tapaa mieleeni tulee OpenAI:n ensimmäinen projekti (kuntosali), joka oli täsmälleen kehys, jonka toivottiin rakentavan suuren kokoelman ympäristöjä samaan skeemaan, mutta tämä oli paljon ennen LLM:iä. Ympäristöt olivat siis tuon ajan yksinkertaisia akateemisia ohjaustehtäviä, kuten kärrytanko, ATARI jne. @PrimeIntellect ympäristökeskus (ja GitHubin "todentajien" säilö) rakentaa modernisoidun version, joka on suunnattu erityisesti LLM:ille, ja se on loistava ponnistus/idea. Ehdotin, että joku rakentaisi jotain vastaavaa aiemmin tänä vuonna:
Ympäristöillä on se ominaisuus, että kun kehyksen runko on paikallaan, yhteisö/teollisuus voi periaatteessa rinnakkaistua monilla eri aloilla, mikä on jännittävää.
Viimeinen ajatus - henkilökohtaisesti ja pitkällä aikavälillä suhtaudun myönteisesti ympäristöihin ja agenttien vuorovaikutukseen, mutta olen karhussa erityisesti vahvistusoppimisen suhteen. Mielestäni palkitsemisfunktiot ovat super sus, ja luulen, että ihmiset eivät käytä RL:ää oppimiseen (ehkä he käyttävät joihinkin motorisiin tehtäviin jne., mutta eivät älyllisiin ongelmanratkaisutehtäviin). Ihmiset käyttävät erilaisia oppimisparadigmoja, jotka ovat huomattavasti tehokkaampia ja otostehokkaampia ja joita ei ole vielä kunnolla keksitty ja skaalattu, vaikka varhaisia luonnoksia ja ideoita on olemassa (vain yhtenä esimerkkinä ajatus "järjestelmän nopeasta oppimisesta", päivityksen siirtämisestä tokeneihin/konteksteihin, ei painoihin, ja valinnaisesti tislaamalla painoihin erillisenä prosessina, vähän kuten uni tekee).

28.8. klo 03.16
Esittelyssä ympäristökeskus
RL-ympäristöt ovat keskeinen pullonkaula tekoälyn kehityksen seuraavalle aallolle, mutta suuret laboratoriot lukitsevat ne
Rakensimme yhteisöalustan avointen ympäristöjen joukkoistamiseen, jotta kuka tahansa voi osallistua avoimen lähdekoodin AGI:hen
520,43K
Johtavat
Rankkaus
Suosikit