Jag uppskattar @Anthropic ärlighet i deras senaste systemkort, men innehållet ger mig inte förtroende för att företaget kommer att agera ansvarsfullt när det gäller att implementera avancerade AI-modeller: -De förlitade sig främst på en intern undersökning för att avgöra om Opus 4.6 överskred deras autonoma AI R&D-4-tröskel (och därför skulle kräva starkare skyddsåtgärder för att släppa under deras ansvarsfulla skalningspolicy). Detta var inte ens en extern undersökning av en opartisk tredje part, utan snarare en undersökning av antropiska anställda. -När de interna respondenterna den 16/5 initialt gav en bedömning som antydde att starkare skyddsåtgärder kunde behövas för modelllansering, följde Anthropic upp med just dessa anställda och bad dem att "klargöra sina åsikter." De nämner ingen liknande uppföljning för de övriga 11/16-respondenterna. Det finns ingen diskussion i systemkortet om hur detta kan skapa partiskhet i undersökningsresultaten. -Deras anledning till att förlita sig på undersökningar är att deras befintliga AI-FoU-utvärderingar är mättade. Vissa kanske hävdar att AI-framstegen har gått så snabbt att det är förståeligt att de ännu inte har mer avancerade kvantitativa utvärderingar, men vi kan och bör hålla AI-labb till en hög ribba. Dessutom har andra laboratorier avancerade AI-FoU-utvärderingar som inte är mättade. Till exempel har OpenAI OPQA-benchmarken som mäter AI-modellernas förmåga att lösa verkliga interna problem som OpenAI-forskarteam stötte på och som tog teamet mer än en dag att lösa. Jag tror inte att Opus 4.6 faktiskt är på nivå med en avancerad AI-forskare på avancerad nivå, och jag tror inte att det är farligt att släppa. Men poängen med en ansvarsfull skalningspolicy är att bygga institutionell styrka och goda vanor innan saker blir allvarliga. Interna undersökningar, särskilt som Anthropic har genomfört dem, är inte en ansvarsfull ersättning för kvantitativa utvärderingar.
@Anthropic Systemkort finns här:
295