Ik waardeer de eerlijkheid van @Anthropic in hun laatste systeemkaart, maar de inhoud ervan geeft me geen vertrouwen dat het bedrijf verantwoordelijk zal handelen bij de inzet van geavanceerde AI-modellen: -Ze hebben voornamelijk vertrouwd op een interne enquête om te bepalen of Opus 4.6 hun autonome AI R&D-4 drempel overschreed (en dus sterkere waarborgen nodig zou hebben voor vrijgave onder hun Responsible Scaling Policy). Dit was niet eens een externe enquête van een onpartijdige derde partij, maar eerder een enquête onder Anthropic-medewerkers. -Toen 5/16 interne enquête-respondenten aanvankelijk een beoordeling gaven die suggereerde dat sterkere waarborgen nodig zouden kunnen zijn voor de vrijgave van het model, heeft Anthropic specifiek contact opgenomen met die medewerkers en hen gevraagd om "hun standpunten te verduidelijken." Ze vermelden geen soortgelijke follow-up voor de andere 11/16 respondenten. Er is geen discussie in de systeemkaart over hoe dit bias in de enquête-resultaten kan creëren. -Hun reden om op enquêtes te vertrouwen is dat hun bestaande AI R&D-evaluaties verzadigd zijn. Sommigen zouden kunnen beweren dat de vooruitgang in AI zo snel is gegaan dat het begrijpelijk is dat ze nog geen meer geavanceerde kwantitatieve evaluaties hebben, maar we kunnen en moeten AI-laboratoria aan een hoge standaard houden. Ook hebben andere laboratoria wel geavanceerde AI R&D-evaluaties die niet verzadigd zijn. Bijvoorbeeld, OpenAI heeft de OPQA-benchmark die de mogelijkheid van AI-modellen meet om echte interne problemen op te lossen die OpenAI-onderzoeksteams zijn tegengekomen en die het team meer dan een dag kostte om op te lossen. Ik denk niet dat Opus 4.6 daadwerkelijk op het niveau is van een remote instapniveau AI-onderzoeker, en ik denk niet dat het gevaarlijk is om het vrij te geven. Maar het punt van een Responsible Scaling Policy is om institutionele kracht en goede gewoonten op te bouwen voordat dingen serieus worden. Interne enquêtes, vooral zoals Anthropic ze heeft uitgevoerd, zijn geen verantwoord substituut voor kwantitatieve evaluaties.
@Anthropic Systeemkaart is hier:
310