Arvostan @Anthropic:n rehellisyyttä heidän uusimmassa järjestelmäkortissaan, mutta sen sisältö ei anna minulle luottamusta siihen, että yritys toimisi vastuullisesti kehittyneiden tekoälymallien käyttöönotossa: -He luottivat pääasiassa sisäiseen kyselyyn selvittääkseen, ylittääkö Opus 4.6 heidän autonomisen tekoälyn T&K-4-kynnysarvonsa (ja siksi vaatisi tiukempia turvatoimia julkaistakseen vastuullisen skaalauspolitiikan puitteissa). Tämä ei ollut edes ulkoinen kysely puolueettomasta kolmannesta osapuolesta, vaan pikemminkin antropisten työntekijöiden kysely. -Kun 5/16 sisäiset kyselyyn vastaajat alun perin antoivat arvion, jossa ehdotettiin, että mallin julkaisussa saattaisi tarvita vahvempia turvatoimia, Anthropic otti yhteyttä juuri näihin työntekijöihin ja pyysi heitä "selventämään näkemyksensä." He eivät mainitse vastaavaa seurantaa muille 16.11. vastaajille. Järjestelmäkortissa ei ole keskustelua siitä, miten tämä voisi aiheuttaa harhaa kyselyn tuloksissa. -Heidän syynsä luottaa kyselyihin on se, että heidän nykyiset tekoälyn tutkimus- ja kehitysarvionsa ovat kyllästyneet. Jotkut saattavat väittää, että tekoälyn kehitys on ollut niin nopeaa, että on ymmärrettävää, ettei heillä vielä ole edistyneempiä kvantitatiivisia arviointeja, mutta voimme ja meidän pitäisi asettaa tekoälylaboratoriot korkealle tasolle. Myös muissa laboratorioissa on edistyneitä tekoälyn tutkimus- ja kehitysarviointeja, jotka eivät ole kyllästyneet. Esimerkiksi OpenAI:lla on OPQA-vertailu, joka mittaa tekoälymallien kykyä ratkaista todellisia sisäisiä ongelmia, joita OpenAI-tutkimusryhmät kohtasivat ja joiden ratkaisemiseen tiimi vei yli päivän. En usko, että Opus 4.6 on oikeasti etätason tekoälytutkijan tasolla, enkä usko, että sen julkaiseminen on vaarallista. Mutta vastuullisen skaalauksen politiikan tarkoitus on rakentaa institutionaalista voimaa ja hyviä tapoja ennen kuin asiat muuttuvat vakaviksi. Sisäiset kyselyt, erityisesti kuten Anthropic on niitä järjestänyt, eivät korvaa määrällisiä arviointeja.
@Anthropic Järjestelmäkortti löytyy täältä:
301