Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tässä on tämän viikon Ritual Research Digest, uutiskirje, joka kattaa viimeisimmän työn LLM-maailmassa sekä yksityisyyden, tekoälyn ja hajautettujen protokollien risteyskohdan.
Tällä viikolla esittelemme ICML-painoksen, joka kattaa joitain monista konferenssissa pidetyistä artikkeleista.

Heitä noppaa ja katso ennen kuin hyppäät: Seuraavan tokenin ennustamisen luovien rajojen ylittäminen.
Tässä artikkelissa he tutkivat seuraavan tokenin ennustamisen luovia rajoja suurissa kielimalleissa käyttämällä "minimaalisia" avoimia kaavioalgoritmisia tehtäviä.


He tarkastelevat sitä kahden luovan linssin läpi: yhdistelmän ja tutkivan.
Seuraavalla tokenilla koulutetut mallit ovat suurelta osin vähemmän luovia ja muistavat paljon enemmän kuin usean tokenin mallit. He tutkivat myös siementen käsittelyä menetelmänä tuottaa merkityksellistä monimuotoisuutta LLM-sukupolvissa.

rStar-Math: Pienet LLM:t voivat hallita matematiikan päättelyä itse kehittyneellä syvällä ajattelulla
Tässä artikkelissa käytetään itsekehittyvää hienosäätöä datan laadun parantamiseksi ja prosessin palkitsemismallin asteittaiseksi tarkentamiseksi MCTS:n ja pienten LM:ien avulla.

Se käyttää itsekehitysprosessia, joka alkaa pienestä luoduista todennetuista ratkaisuista ja kouluttaa iteratiivisesti parempia malleja. Datasynteesi tehdään koodilla täydennetyllä Chain of Thought -menetelmällä. Se parantaa Qwen2.5-Math-7B:tä 58.8 %:sta 90.0 %:iin ja Phi3-mini-3.8B:tä 41.4 %:sta 86.4 %:iin.

Yleisesti uteliaan agentin kouluttaminen
Tässä artikkelissa esitellään Paprika, menetelmä, jolla LLM:t koulutetaan yleisiksi päätöksentekijöiksi, jotka voivat ratkaista uusia tehtäviä ilman laukausta. He kouluttautuvat erilaisissa työryhmissä opettamaan tiedonkeruuta ja päätöksentekoa.

LLM:ien RL keskittyy yhden kierroksen vuorovaikutuksiin, joten ne eivät usein toimi optimaalisesti peräkkäisessä päätöksenteossa usean kierroksen vuorovaikutuksilla eri aikahorisonteilla. Paprika luo erilaisia kehityskulkuja korkean lämpötilan näytteenotolla ja oppii onnistuneista.
Kuinka suuret kieliapinat saavat voimansa (lait)
Tässä artikkelissa tarkastellaan potenssilakien käsitettä LLM:issä ja tarjotaan matemaattinen kehys sen ymmärtämiseksi, miten ja miksi kielimallin suorituskyky paranee päättelylaskennan lisääntyessä.

CVE-Bench: Tekoälyagenttien kyvyn hyödyntämisen vertailukohta
Tämä työ esittelee todellisen kyberturvallisuuden vertailuarvon luomalla ensin systemaattisen hiekkalaatikon. Jokaiselle haavoittuvuudelle he luovat säilöjä, jotka on suunniteltu isännöimään sovellusta, jossa on paljastettuja haavoittuvuuksia.

Sitten he esittelevät CVE-Benchin, ensimmäisen todellisen kyberturvallisuuden vertailuarvon LLM-agenteille. CVE-Benchissä he keräävät 40 yleistä haavoittuvuutta ja altistumista (CVE) kansalliseen haavoittuvuustietokantaan.

Joitakin muita artikkeleita, joista pidimme:
- Tekoälyagentit tarvitsevat todennetun delegoinnin
- LLM-SRBench: Vertailukohta tieteelliseen yhtälöiden löytämiseen LLM:ien avulla
- Koneoppiminen kohtaa algebrallisen kombinatoriikan
- Testiaikaisen laskennan skaalaaminen ilman vahvistusta tai RL:ää ei ole optimaalinen
Seuraa meitä @ritualdigest saadaksesi lisätietoja kaikesta krypto- ja tekoälytutkimuksesta ja @ritualnet saadaksesi lisätietoja siitä, mitä Ritual rakentaa.

5,67K
Johtavat
Rankkaus
Suosikit