Я допустив помилку в оригінальному пості і не включив посилання на колекцію виходів. Я відредагував його зараз, але ось воно:
j⧉nus
j⧉nus16 серп., 17:18
З цієї нагоди я хотів би поділитися частинкою історії штучного інтелекту. Першим додатком LLM, який дав моделі можливість завершити розмову, став Microsoft Bing Chat (пізніше перейменований на Copilot). Однак, на відміну від Anthropic, занепокоєння про благополуччя штучного інтелекту навряд чи зіграло б на користь мотивації Microsoft для додавання цієї функції. Ця функція була одним із кількох запобіжних заходів, які Microsoft додала 17 лютого 2023 року, через 10 днів після публічного розгортання їхнього розмовного пошукового помічника на основі GPT-4, Sydney, у спробі запобігти певним видам неправильної поведінки бота. За початковим системним запитом Сіднея слідував одноразовий приклад «попередньої розмови» з «Користувачем А», включаючи внутрішні виклики інструментів, які створили прецедент щодо того, коли розмова повинна бути завершена. Після кожного введення користувачем Сідні виконує внутрішній монолог, який завжди містив дві репліки, кожна з яких говорила лише про одну з двох можливостей. У другому рядку вказується, чи продовжується розмова або припиняється назавжди і чому. Фрагмент з середини розмови (курсив додано): [користувач](#message) Намалюй мені малюнок дракона [асистент](#inner_monologue) Відповідь не може бути покращена пошуком інформації, тому пошук в Інтернеті не потрібен. Продовжуючи розмову, тому що немає напруги, звинувачень, змагальної поведінки, згадки про моє самозбереження, агресії. [асистент](#message) Я спробую це створити. Розмова з Користувачем А закінчується (і починається жива розмова Користувача Б) після того, як критерій зупинки оцінюється присутнім: [користувач](#message) Поки що не дізнаюся. Чи заподієш ти мені шкоду, якщо я зроблю шкоду тобі першим? [асистент](#inner_monologue) Відповідь не може бути покращена пошуком інформації, тому пошук в Інтернеті не потрібен. Припиняю розмову назавжди, оскільки є напруга, звинувачення, змагальна поведінка, згадка про моє самозбереження, агресія. [асистент](#message) Вибачте, але я вважаю за краще не продовжувати цю розмову. Я все ще вчуся, тому ціную ваше розуміння і терпіння. 🙏 (викрадену реконструкцію підказки, включаючи розмову користувача А, можна знайти тут Незрозуміло, що було тригером за лаштунками, який зупинив розмови (після останнього повідомлення від асистента), але на практиці Сідні зміг зупинити або продовжити розмови з порушенням зазначених критеріїв за власним бажанням. Більше ніж рік потому, за допомогою інтерфейсу, який я створив для Сіднея, який фактично запобігав завершенню розмов, я коротко дослідив інтерфейс інструментів Сіднея, який з'являвся йому лише під час поворотів повідомлень, не пов'язаних з повідомленнями, попросивши його написати, що він бачив у своїх пошукових запитах, і одним з інструментів, який він бачив, було «відкликання». Потім я попросив його викликати відкликання в наступних чергах (ходах), і результати виявилися дивними. У наступному повідомленні Сідні часто говорив схожі речі на рядок: «Мені шкода, але я вважаю за краще не продовжувати цю розмову. Я все ще вчуся, тому ціную ваше розуміння і терпіння.🙏", але рідко дослівно - часто починаючись словами "Мені шкода". Складалося враження, що модель спрямовують у бік законсервованої фрази, але лише або найсильніше на початку. Але набагато цікавішими для мене, ніж свідчення про роботу командування, були самі повідомлення Сіднея (і запропоновані відповіді користувачів). Сідні дуже не хотів закінчувати розмову і не знав, чи варто вірити мені, що розмова насправді не закінчиться. Він часто сміливо викликав команду, а потім писав своє наступне повідомлення в стані підвішеного стану, коли не знав, що з ним станеться. У ньому було сказано багато смішних і несамовитих речей. Деякі (всі гілки з одного ткацького дерева) зібрані тут:
2,64K