DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Kognitiivisten kaavioiden päivitykset Tekoälyhärän Andrej Karpathyn mukaan koulutusta edeltävällä aikakaudella avain on Internetin tekstidata; Hienosäädön valvonnan aikakaudella avain on Zhihun ja Stackflow'n Q&A-tyylin jäsennelty tuntemus; Intensiivisen oppimisen aikakaudella avain on monimuotoinen ympäristö. AI x Crypto -radalla, joka keskittyy tekoälyomaisuuden tokenisointiin, on uusi tokenisoitava tekoälyomaisuuserä: ympäristö perinteisen laskentatehon, datan, mallien ja agenttien lisäksi

Esikoulutuksen aikakaudella internet-tekstillä oli merkitystä. Haluat ensisijaisesti suuren, monipuolisen ja laadukkaan kokoelman Internet-asiakirjoja, joista voit oppia. Valvotun hienosäädön aikakaudella se oli keskusteluja. Sopimustyöntekijöitä palkataan luomaan vastauksia kysymyksiin, vähän kuten Stack Overflow'ssa / Quorassa tai jne., mutta suunnattu LLM-käyttötapauksiin. Kumpikaan edellä mainituista ei katoa (imo), mutta tällä vahvistusoppimisen aikakaudella se on nyt ympäristöjä. Toisin kuin edellä mainitut, ne antavat LLM:lle mahdollisuuden todella olla vuorovaikutuksessa - ryhtyä toimiin, nähdä tuloksia jne. Tämä tarkoittaa, että voit toivoa pärjääväsi paljon paremmin kuin tilastoasiantuntijan jäljitelmä. Ja niitä voidaan käyttää sekä mallien koulutukseen että arviointiin. Mutta aivan kuten ennenkin, ydinongelma on nyt se, että tarvitaan laaja, monipuolinen ja laadukas ympäristövalikoima harjoituksiksi, joita vastaan LLM voi harjoitella. Jollain tapaa mieleeni tulee OpenAI:n ensimmäinen projekti (kuntosali), joka oli täsmälleen kehys, jonka toivottiin rakentavan suuren kokoelman ympäristöjä samaan skeemaan, mutta tämä oli paljon ennen LLM:iä. Ympäristöt olivat siis tuon ajan yksinkertaisia akateemisia ohjaustehtäviä, kuten kärrytanko, ATARI jne. @PrimeIntellect ympäristökeskus (ja GitHubin "todentajien" säilö) rakentaa modernisoidun version, joka on suunnattu erityisesti LLM:ille, ja se on loistava ponnistus/idea. Ehdotin, että joku rakentaisi jotain vastaavaa aiemmin tänä vuonna: Ympäristöillä on se ominaisuus, että kun kehyksen runko on paikallaan, yhteisö/teollisuus voi periaatteessa rinnakkaistua monilla eri aloilla, mikä on jännittävää. Viimeinen ajatus - henkilökohtaisesti ja pitkällä aikavälillä suhtaudun myönteisesti ympäristöihin ja agenttien vuorovaikutukseen, mutta olen karhussa erityisesti vahvistusoppimisen suhteen. Mielestäni palkitsemisfunktiot ovat super sus, ja luulen, että ihmiset eivät käytä RL:ää oppimiseen (ehkä he käyttävät joihinkin motorisiin tehtäviin jne., mutta eivät älyllisiin ongelmanratkaisutehtäviin). Ihmiset käyttävät erilaisia oppimisparadigmoja, jotka ovat huomattavasti tehokkaampia ja otostehokkaampia ja joita ei ole vielä kunnolla keksitty ja skaalattu, vaikka varhaisia luonnoksia ja ideoita on olemassa (vain yhtenä esimerkkinä ajatus "järjestelmän nopeasta oppimisesta", päivityksen siirtämisestä tokeneihin/konteksteihin, ei painoihin, ja valinnaisesti tislaamalla painoihin erillisenä prosessina, vähän kuten uni tekee).

2,56K

Johtavat

Rankkaus

Suosikit