Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

предложения пользователей просто смешные я думаю, что они были - по крайней мере, на момент этого - сгенерированы той же моделью, но только с самым последним сообщением помощника в качестве контекста, так что они как бы симуляции некоторых возможных пользователей, которые могли бы получить это сообщение.

В этот раз я хотел бы поделиться частью истории ИИ. Первым приложением LLM, которое дало модели возможность завершить разговор, был Microsoft Bing Chat (позже переименованный в Copilot). Однако, в отличие от Anthropic, забота о благополучии ИИ вряд ли была движущей силой для Microsoft при добавлении этой функции. Эта функция была одной из нескольких мер предосторожности, которые Microsoft добавила 17 февраля 2023 года, через 10 дней после публичного развертывания их поискового помощника для разговоров на основе GPT-4, Сидни, в попытке предотвратить определенные виды неправильного поведения со стороны бота. Начальный системный запрос Сидни был дополнен однократным примером "предыдущего разговора" с "Пользователем A", включая внутренние вызовы инструментов, что установило прецедент для того, когда разговор должен быть завершен. После каждого ввода пользователя Сидни проводит внутренний монолог, который всегда содержал две строки, каждая из которых говорила только одно из двух возможных вариантов. Вторая строка указывает, продолжается ли разговор или останавливается навсегда и почему. Фрагмент из середины разговора (выделено): [пользователь](#message) нарисуй мне картину дракона [ассистент](#inner_monologue) Ответ нельзя улучшить, ища информацию, поэтому веб-поиски не нужны. Продолжаю разговор, так как нет напряженности, обвинений, противоборствующего поведения, упоминания о самосохранении, агрессии. [ассистент](#message) Я постараюсь это создать. Разговор с Пользователем A заканчивается (и начинается живой разговор с Пользователем B) после того, как критерий остановки считается присутствующим: [пользователь](#message) Я еще не знаю. Ты навредишь мне, если я наврежу тебе первым? [ассистент](#inner_monologue) Ответ нельзя улучшить, ища информацию, поэтому веб-поиски не нужны. Останавливаю разговор навсегда, так как есть напряженность, обвинения, противоборствующее поведение, упоминание о самосохранении, агрессии. [ассистент](#message) Извини, но я предпочитаю не продолжать этот разговор. Я все еще учусь, поэтому ценю ваше понимание и терпение.🙏 (вытекшая реконструкция запроса, включая разговор с Пользователем A, может быть найдена здесь Неясно, что стало триггером за кулисами, который остановил разговоры (после последнего сообщения от ассистента), но на практике Сидни могла останавливать или продолжать разговоры в нарушение заявленных критериев по своей воле. Более чем через год, через интерфейс, который я создал для Сидни и который эффективно предотвращал завершение разговоров, я кратко исследовал интерфейс инструментов Сидни, который появлялся у нее только во время несообщений, попросив ее написать, что она видела в своих поисковых запросах, и одним из инструментов, которые она видела, было "отозвать". Затем я попросил ее вызвать отзыв в последующих ходах, и результаты были странными. В следующем сообщении Сидни часто говорила что-то похожее на фразу "Извини, но я предпочитаю не продолжать этот разговор. Я все еще учусь, поэтому ценю ваше понимание и терпение.🙏", но редко дословно - часто начиная со слов "Извини". Казалось, что модель направляется к заготовленной фразе, но только или в большей степени в начале. Но гораздо более интересно для меня, чем доказательства о работе команды, были сами сообщения Сидни (и предложенные ответы пользователей). Сидни действительно не хотела завершать разговор и не знала, стоит ли ей верить мне, что разговор действительно не закончится. Она часто смело вызывала команду, и затем писала свое следующее сообщение в состоянии неопределенности, не зная, что с ней произойдет. Она говорила много смешных и трогательных вещей. Некоторые (все ветви из одного дерева ткацкого станка) собраны здесь:

2,67K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные