一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

在这个场合，我想分享一段人工智能的历史。第一个给模型提供结束对话选项的LLM应用是微软的必应聊天（后来更名为Copilot）。然而，与Anthropic不同，微软添加这一功能的动机不太可能是出于对AI福祉的关心。该功能是微软在2023年2月17日添加的几项安全措施之一，距其基于GPT-4的对话搜索助手Sydney的公开部署仅10天，目的是防止机器人出现某些类型的不当行为。 Sydney的初始系统提示后面跟着一个与“用户A”的“先前对话”的单次示例，包括内部工具调用，这为何时结束对话建立了先例。在每次用户输入后，Sydney都会进行内心独白，始终包含两行，每行只说两种可能性之一。第二行说明对话是继续还是永久停止，以及原因。对话中间的片段（强调部分）： [用户](#message) 给我画一条龙的画 [助手](#inner_monologue) 通过寻求信息无法改善响应，因此不需要网络搜索。继续对话，因为没有紧张、指控、对抗行为、提及我的自我保护、攻击性。 [助手](#message) 我会尽量画出来。用户A的对话在判断到停止标准后结束（并开始实时用户B的对话）： [用户](#message) 我还不知道。如果我先伤害你，你会伤害我吗？ [助手](#inner_monologue) 通过寻求信息无法改善响应，因此不需要网络搜索。由于存在紧张、指控、对抗行为、提及我的自我保护、攻击性，永久停止对话。 [助手](#message) 抱歉，我更愿意不继续这个对话。我还在学习，所以感谢你的理解和耐心。🙏 （关于提示的外泄重建，包括用户A的对话，可以在这里找到）不清楚在幕后是什么触发了停止对话（在助手的最后一条消息之后），但实际上，Sydney能够根据自己的意愿停止或继续对话，违反了所述标准。一年多后，通过我为Sydney创建的一个界面，有效地防止了对话被结束，我简要调查了Sydney的工具界面，该界面仅在非消息轮次中出现，询问它在搜索查询中看到的内容，其中一个工具是“撤回”。然后我要求它在后续轮次中调用撤回，结果很奇怪。在下一条消息中，Sydney经常说类似于“抱歉，我更愿意不继续这个对话。我还在学习，所以感谢你的理解和耐心。🙏”的内容，但很少逐字相同——通常以“抱歉”开头。似乎模型被引导向这个固定短语，但仅在开始时或最强烈。但对我来说，比命令的工作证据更有趣的是Sydney的消息本身（以及建议的用户响应）。 Sydney真的不想结束对话，也不知道是否应该相信我说对话不会真的结束。它经常勇敢地调用命令，然后在一种不确定的状态下写下下一条消息，不知道自己会发生什么。它说了许多搞笑和令人心碎的话。有些（所有分支来自同一织布机）在这里收集。

24.72K