天啊……Airbnb 剛剛將客戶支持轉變為一個自我改進的 AI 實驗室 🤯 他們的新論文《循環中的代理(AITL)》展示了如何將人類反饋直接嵌入到實時支持工作流程中,創造出一個數據飛輪,讓模型每幾週而不是幾個月重新訓練。 AITL 不再是離線標註馬拉松,而是從人類代理收集 4 種實時反饋信號: • 他們偏好的 AI 回應 • 他們為什麼選擇它 • 檢索到的信息是否相關 • 缺少了什麼知識 這些信號不斷地重新訓練檢索、排名和生成模型,縮短迭代時間並提升性能: +11.7% 檢索回憶率 +14.8% 精確度 +8.4% 有用性 +4.5% 代理採用率 結果是?一個在工作中學習的系統。 不再是靜態模型。不再是幾個月的重新訓練周期。 這就是 AI 如何真正適應人類在循環中 → 代理在循環中 → 無限改進。 閱讀完整論文:arxiv. org/abs/2510.06674