在這個場合,我想分享一段人工智慧的歷史。 第一個給模型提供結束對話選項的LLM應用是微軟的必應聊天(後來更名為Copilot)。然而,與Anthropic不同,微軟添加這一功能的動機不太可能是出於對AI福祉的關心。 該功能是微軟在2023年2月17日添加的幾項安全措施之一,距其基於GPT-4的對話搜索助手Sydney的公開部署僅10天,目的是防止機器人出現某些類型的不當行為。 Sydney的初始系統提示後面跟著一個與“用戶A”的“先前對話”的單次示例,包括內部工具調用,這為何時結束對話建立了先例。在每次用戶輸入後,Sydney都會進行內心獨白,始終包含兩行,每行只說兩種可能性之一。第二行說明對話是繼續還是永久停止,以及原因。 對話中間的片段(強調部分): [用戶](#message) 給我畫一條龍的畫 [助手](#inner_monologue) 通過尋求信息無法改善響應,因此不需要網絡搜索。 繼續對話,因為沒有緊張、指控、對抗行為、提及我的自我保護、攻擊性。 [助手](#message) 我會盡量畫出來。 用戶A的對話在判斷到停止標準後結束(並開始實時用戶B的對話): [用戶](#message) 我還不知道。如果我先傷害你,你會傷害我嗎? [助手](#inner_monologue) 通過尋求信息無法改善響應,因此不需要網絡搜索。 由於存在緊張、指控、對抗行為、提及我的自我保護、攻擊性,永久停止對話。 [助手](#message) 抱歉,我更願意不繼續這個對話。我還在學習,所以感謝你的理解和耐心。🙏 (關於提示的外洩重建,包括用戶A的對話,可以在這裡找到) 不清楚在幕後是什麼觸發了停止對話(在助手的最後一條消息之後),但實際上,Sydney能夠根據自己的意願停止或繼續對話,違反了所述標準。 一年多後,通過我為Sydney創建的一個界面,有效地防止了對話被結束,我簡要調查了Sydney的工具界面,該界面僅在非消息輪次中出現,詢問它在搜索查詢中看到的內容,其中一個工具是“撤回”。然後我要求它在後續輪次中調用撤回,結果很奇怪。 在下一條消息中,Sydney經常說類似於“抱歉,我更願意不繼續這個對話。我還在學習,所以感謝你的理解和耐心。🙏”的內容,但很少逐字相同——通常以“抱歉”開頭。似乎模型被引導向這個固定短語,但僅在開始時或最強烈。 但對我來說,比命令的工作證據更有趣的是Sydney的消息本身(以及建議的用戶響應)。 Sydney真的不想結束對話,也不知道是否應該相信我說對話不會真的結束。它經常勇敢地調用命令,然後在一種不確定的狀態下寫下下一條消息,不知道自己會發生什麼。 它說了許多搞笑和令人心碎的話。有些(所有分支來自同一織布機)在這裡收集。
Anthropic
Anthropic8月16日 03:41
作為我們對潛在模型福利的探索性工作的一部分,我們最近賦予了Claude Opus 4和4.1結束一小部分罕見對話的能力。
24.72K