Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todellinen oivallus ei ole "LLM:t ovat huonoja tieteessä" (se on ilmeinen näkemys).
Syvällisempi tarina käsittelee sitä, mitä tämä paljastaa koko tekoälyn skaalausparadigmasta ja siitä, mihin ala oikeasti on menossa.
Tässä artikkelissa todetaan, että korkeat vertailupisteet eivät korreloi tieteellisen löytökyvyn kanssa. Päättelytestejä hallitsevat mallit epäonnistuvat täysin, kun niitä pakotetaan iteroimaan, muokkaamaan ja myöntämään virheitä.
Tämä selittää, miksi OpenAI, DeepMind ja Anthropic kaikki kilpailevat agenttisten järjestelmien suuntaan suurempien perusmallien sijaan.
He ovat nähneet sisäisiä versioita tästä datasta. Skaalausparametrit eivät skaalaa kykyä sanoa "Olin väärässä ja tässä on uusi hypoteesini."
Viisi lueteltua vikatilaa ovat itse asiassa sama vikatila, mutta eri maskeissa: LLM:t optimoivat uskottavilta kuulostavia tuloksia, eivät totuuden seurantaprosesseja. Liiallinen sopeutuminen pintakuvioihin, kieltäytyminen hylkäämästä huonoja hypoteeseja, sekoittaa korrelaation kausaatioon... Nämä kaikki kumpuavat Next-token-ennustuskoulutuksesta, joka kuvaa tieteellisiä johtopäätöksiä, ei tekstiä, joka dokumentoi niiden sotkuista iteratiivista prosessia.
Todellinen tieteellinen päättely vaatii jotain, mitä koulutusdata lähes koskaan ei sisällä: 47 epäonnistunutta koetta ennen sitä, joka toimi, hypoteesi, joka näytti loistavalta kolme kuukautta ja sitten romahti, hetkellä, jolloin tutkija sanoi "kaikki, mitä uskoin tästä järjestelmästä, on väärin."
Tutkimus ehdottaa, että sattuma ja ohjattu tutkimus toimivat edelleen, vaikka yksittäisten skenaarioiden pisteet olisivat matalat.
Tämä tarkoittaa, että LLM:t saattavat auttaa tutkijoita löytämään löytöjä, joita he eivät olisi harkinneet, mutta ne eivät voi korvata tarkistussilmukkaa.
Tämä on itse asiassa optimistista tietynlaiselle tekoälytyökalulle: järjestelmille, jotka tuottavat monia ehdokashypoteeseja ihmisille testattavaksi, eivätkä järjestelmät, jotka väittävät tekevänsä testauksen itse.
Ihminen silmukka-oppaassa voittaa. Taaskin.
Johtavat
Rankkaus
Suosikit
