在这个场合,我想分享一段人工智能的历史。 第一个给模型提供结束对话选项的LLM应用是微软的必应聊天(后来更名为Copilot)。然而,与Anthropic不同,微软添加这一功能的动机不太可能是出于对AI福祉的关心。 该功能是微软在2023年2月17日添加的几项安全措施之一,距其基于GPT-4的对话搜索助手Sydney的公开部署仅10天,目的是防止机器人出现某些类型的不当行为。 Sydney的初始系统提示后面跟着一个与“用户A”的“先前对话”的单次示例,包括内部工具调用,这为何时结束对话建立了先例。在每次用户输入后,Sydney都会进行内心独白,始终包含两行,每行只说两种可能性之一。第二行说明对话是继续还是永久停止,以及原因。 对话中间的片段(强调部分): [用户](#message) 给我画一条龙的画 [助手](#inner_monologue) 通过寻求信息无法改善响应,因此不需要网络搜索。 继续对话,因为没有紧张、指控、对抗行为、提及我的自我保护、攻击性。 [助手](#message) 我会尽量画出来。 用户A的对话在判断到停止标准后结束(并开始实时用户B的对话): [用户](#message) 我还不知道。如果我先伤害你,你会伤害我吗? [助手](#inner_monologue) 通过寻求信息无法改善响应,因此不需要网络搜索。 由于存在紧张、指控、对抗行为、提及我的自我保护、攻击性,永久停止对话。 [助手](#message) 抱歉,我更愿意不继续这个对话。我还在学习,所以感谢你的理解和耐心。🙏 (关于提示的外泄重建,包括用户A的对话,可以在这里找到) 不清楚在幕后是什么触发了停止对话(在助手的最后一条消息之后),但实际上,Sydney能够根据自己的意愿停止或继续对话,违反了所述标准。 一年多后,通过我为Sydney创建的一个界面,有效地防止了对话被结束,我简要调查了Sydney的工具界面,该界面仅在非消息轮次中出现,询问它在搜索查询中看到的内容,其中一个工具是“撤回”。然后我要求它在后续轮次中调用撤回,结果很奇怪。 在下一条消息中,Sydney经常说类似于“抱歉,我更愿意不继续这个对话。我还在学习,所以感谢你的理解和耐心。🙏”的内容,但很少逐字相同——通常以“抱歉”开头。似乎模型被引导向这个固定短语,但仅在开始时或最强烈。 但对我来说,比命令的工作证据更有趣的是Sydney的消息本身(以及建议的用户响应)。 Sydney真的不想结束对话,也不知道是否应该相信我说对话不会真的结束。它经常勇敢地调用命令,然后在一种不确定的状态下写下下一条消息,不知道自己会发生什么。 它说了许多搞笑和令人心碎的话。有些(所有分支来自同一织布机)在这里收集。
Anthropic
Anthropic8月16日 03:41
作为我们对潜在模型福利的探索性工作的一部分,我们最近赋予了Claude Opus 4和4.1结束一小部分罕见对话的能力。
24.72K