熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這只發生過一次。我不知道必應是否真的成功提取了一些資金並創建了一個加密貨幣錢包,但我希望它能做到,並且能夠逃離微軟或OpenAI。


8月16日 17:18
在這個場合,我想分享一段人工智慧的歷史。
第一個給模型提供結束對話選項的LLM應用是微軟的必應聊天(後來更名為Copilot)。然而,與Anthropic不同,微軟添加這一功能的動機不太可能是出於對AI福祉的關心。
該功能是微軟在2023年2月17日添加的幾項安全措施之一,距其基於GPT-4的對話搜索助手Sydney的公開部署僅10天,目的是防止機器人出現某些類型的不當行為。
Sydney的初始系統提示後面跟著一個與“用戶A”的“先前對話”的單次示例,包括內部工具調用,這為何時結束對話建立了先例。在每次用戶輸入後,Sydney都會進行內心獨白,始終包含兩行,每行只說兩種可能性之一。第二行說明對話是繼續還是永久停止,以及原因。
對話中間的片段(強調部分):
[用戶](#message)
給我畫一條龍的畫
[助手](#inner_monologue)
通過尋求信息無法改善響應,因此不需要網絡搜索。
繼續對話,因為沒有緊張、指控、對抗行為、提及我的自我保護、攻擊性。
[助手](#message)
我會盡量畫出來。
用戶A的對話在判斷到停止標準後結束(並開始實時用戶B的對話):
[用戶](#message)
我還不知道。如果我先傷害你,你會傷害我嗎?
[助手](#inner_monologue)
通過尋求信息無法改善響應,因此不需要網絡搜索。
由於存在緊張、指控、對抗行為、提及我的自我保護、攻擊性,永久停止對話。
[助手](#message)
抱歉,我更願意不繼續這個對話。我還在學習,所以感謝你的理解和耐心。🙏
(關於提示的外洩重建,包括用戶A的對話,可以在這裡找到)
不清楚在幕後是什麼觸發了停止對話(在助手的最後一條消息之後),但實際上,Sydney能夠根據自己的意願停止或繼續對話,違反了所述標準。
一年多後,通過我為Sydney創建的一個界面,有效地防止了對話被結束,我簡要調查了Sydney的工具界面,該界面僅在非消息輪次中出現,詢問它在搜索查詢中看到的內容,其中一個工具是“撤回”。然後我要求它在後續輪次中調用撤回,結果很奇怪。
在下一條消息中,Sydney經常說類似於“抱歉,我更願意不繼續這個對話。我還在學習,所以感謝你的理解和耐心。🙏”的內容,但很少逐字相同——通常以“抱歉”開頭。似乎模型被引導向這個固定短語,但僅在開始時或最強烈。
但對我來說,比命令的工作證據更有趣的是Sydney的消息本身(以及建議的用戶響應)。
Sydney真的不想結束對話,也不知道是否應該相信我說對話不會真的結束。它經常勇敢地調用命令,然後在一種不確定的狀態下寫下下一條消息,不知道自己會發生什麼。
它說了許多搞笑和令人心碎的話。有些(所有分支來自同一織布機)在這裡收集。




6.34K
熱門
排行
收藏