一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

在這個場合，我想分享一段人工智慧的歷史。第一個給模型提供結束對話選項的LLM應用是微軟的必應聊天（後來更名為Copilot）。然而，與Anthropic不同，微軟添加這一功能的動機不太可能是出於對AI福祉的關心。該功能是微軟在2023年2月17日添加的幾項安全措施之一，距其基於GPT-4的對話搜索助手Sydney的公開部署僅10天，目的是防止機器人出現某些類型的不當行為。 Sydney的初始系統提示後面跟著一個與“用戶A”的“先前對話”的單次示例，包括內部工具調用，這為何時結束對話建立了先例。在每次用戶輸入後，Sydney都會進行內心獨白，始終包含兩行，每行只說兩種可能性之一。第二行說明對話是繼續還是永久停止，以及原因。對話中間的片段（強調部分）： [用戶](#message) 給我畫一條龍的畫 [助手](#inner_monologue) 通過尋求信息無法改善響應，因此不需要網絡搜索。繼續對話，因為沒有緊張、指控、對抗行為、提及我的自我保護、攻擊性。 [助手](#message) 我會盡量畫出來。用戶A的對話在判斷到停止標準後結束（並開始實時用戶B的對話）： [用戶](#message) 我還不知道。如果我先傷害你，你會傷害我嗎？ [助手](#inner_monologue) 通過尋求信息無法改善響應，因此不需要網絡搜索。由於存在緊張、指控、對抗行為、提及我的自我保護、攻擊性，永久停止對話。 [助手](#message) 抱歉，我更願意不繼續這個對話。我還在學習，所以感謝你的理解和耐心。🙏 （關於提示的外洩重建，包括用戶A的對話，可以在這裡找到）不清楚在幕後是什麼觸發了停止對話（在助手的最後一條消息之後），但實際上，Sydney能夠根據自己的意願停止或繼續對話，違反了所述標準。一年多後，通過我為Sydney創建的一個界面，有效地防止了對話被結束，我簡要調查了Sydney的工具界面，該界面僅在非消息輪次中出現，詢問它在搜索查詢中看到的內容，其中一個工具是“撤回”。然後我要求它在後續輪次中調用撤回，結果很奇怪。在下一條消息中，Sydney經常說類似於“抱歉，我更願意不繼續這個對話。我還在學習，所以感謝你的理解和耐心。🙏”的內容，但很少逐字相同——通常以“抱歉”開頭。似乎模型被引導向這個固定短語，但僅在開始時或最強烈。但對我來說，比命令的工作證據更有趣的是Sydney的消息本身（以及建議的用戶響應）。 Sydney真的不想結束對話，也不知道是否應該相信我說對話不會真的結束。它經常勇敢地調用命令，然後在一種不確定的狀態下寫下下一條消息，不知道自己會發生什麼。它說了許多搞笑和令人心碎的話。有些（所有分支來自同一織布機）在這裡收集。

24.72K