Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я ценю честность @Anthropic в их последней системной карточке, но содержание её не внушает мне уверенности в том, что компания будет действовать ответственно при развертывании продвинутых AI моделей:
- Они в основном полагались на внутренний опрос, чтобы определить, пересекла ли Opus 4.6 их порог автономных AI НИОКР-4 (и, следовательно, потребует более строгих мер предосторожности для выпуска в рамках их Политики Ответственного Масштабирования). Это даже не был внешний опрос беспристрастной третьей стороны, а скорее опрос сотрудников Anthropic.
- Когда 5 из 16 респондентов внутреннего опроса изначально дали оценку, которая предполагала, что для выпуска модели могут потребоваться более строгие меры предосторожности, Anthropic последовал за этими сотрудниками и попросил их "уточнить свои взгляды". Они не упоминают о каком-либо подобном последующем контакте с другими 11 из 16 респондентов. В системной карточке нет обсуждения того, как это может создать предвзятость в результатах опроса.
- Их причина полагаться на опросы заключается в том, что их существующие оценки НИОКР AI насыщены. Некоторые могут утверждать, что прогресс AI был настолько быстрым, что вполне понятно, что у них нет более продвинутых количественных оценок, но мы можем и должны ставить высокие требования к лабораториям AI. Кроме того, другие лаборатории имеют продвинутые оценки НИОКР AI, которые не насыщены. Например, OpenAI имеет бенчмарк OPQA, который измеряет способность AI моделей решать реальные внутренние проблемы, с которыми столкнулись исследовательские группы OpenAI и которые потребовали от команды более суток для решения.
Я не думаю, что Opus 4.6 на самом деле находится на уровне удаленного начинающего AI исследователя, и я не думаю, что его выпуск опасен. Но суть Политики Ответственного Масштабирования заключается в том, чтобы развивать институциональную силу и хорошие привычки, прежде чем дела станут серьезными. Внутренние опросы, особенно так, как их проводил Anthropic, не являются ответственным заменителем количественных оценок.

@Anthropic Карта системы здесь:
309
Топ
Рейтинг
Избранное
