Я ціную чесність @Anthropic у їхній останній системній картці, але її зміст не дає мені впевненості, що компанія діятиме відповідально при впровадженні передових моделей ШІ: -Вони переважно покладалися на внутрішнє опитування, щоб визначити, чи перевищив Opus 4.6 їхній поріг автономного AI R&D-4 (і тому вимагав би посилених заходів безпеки за їхньою політикою відповідального масштабування). Це навіть не було зовнішнім опитуванням неупередженої третьої сторони, а скоріше опитуванням співробітників Anthropic. -Коли респонденти внутрішнього опитування 16.05 спочатку дали оцінку, яка натякала на те, що для випуску моделі можуть знадобитися жорсткіші заходи безпеки, Anthropic спеціально зв'язався з цими працівниками і попросив їх «уточнити свої погляди». Вони не згадують жодних подібних подальших перевірок для інших 11/16 респондентів. У системній картці немає обговорення того, як це може створювати упередження у результатах опитування. -Їхня причина покладатися на опитування полягає в тому, що їхні існуючі оцінки досліджень і розробок ШІ перенасичені. Дехто може стверджувати, що прогрес у сфері ШІ був настільки швидким, що зрозуміло, чому поки що немає більш просунутих кількісних оцінок, але ми можемо і повинні ставити лабораторії ШІ на високий рівень стандарту. Крім того, інші лабораторії мають просунуті оцінки ШІ, які не перенасичені. Наприклад, OpenAI має бенчмарк OPQA, який вимірює здатність моделей ШІ вирішувати реальні внутрішні проблеми, з якими стикалися дослідницькі команди OpenAI і які команді знадобилося понад день. Я не думаю, що Opus 4.6 насправді на рівні дистанційного початкового дослідника ШІ, і не думаю, що його випускати небезпечно. Але суть політики відповідального масштабування полягає в тому, щоб нарощувати інституційну силу та хороші звички до того, як ситуація стане серйозною. Внутрішні опитування, особливо оскільки їх проводить Anthropic, не є відповідальною заміною кількісних оцінок.
@Anthropic Системна карта тут:
296