天哪……Airbnb刚刚把客户支持变成了一个自我改进的AI实验室🤯 他们的新论文《循环中的代理(AITL)》展示了如何将人类反馈直接嵌入实时支持工作流程中,从而创建一个数据飞轮,每几周而不是几个月重新训练模型。 AITL收集来自人类代理的4个实时反馈信号,而不是离线注释马拉松: • 他们更喜欢哪个AI响应 • 他们为什么选择它 • 检索到的信息是否相关 • 缺少了什么知识 这些信号不断重新训练检索、排名和生成模型,缩短迭代时间并提升性能: +11.7% 检索召回率 +14.8% 精确度 +8.4% 有用性 +4.5% 代理采用率 结果?一个在工作中学习的系统。 不再是静态模型。不再是几个月的重新训练周期。 这就是AI如何真正适应人类在循环中→代理在循环中→无限改进。 阅读完整论文:arxiv. org/abs/2510.06674