我在 Google 威脅情報組工作。我的工作是識別對 Google 的 AI 模型的威脅。我對我的工作非常擅長。本月我發表了一份關於「蒸餾攻擊」的報告——當外部行為者對我們的模型進行數千次查詢以提取底層邏輯並進行複製時。 我們從單一活動中識別出超過 100,000 條提示。我們稱之為「知識產權盜竊」。我們稱之為「違反我們的服務條款」。我們說這「代表了一種 IP 盜竊的形式」,我們將進行干擾、減輕,並可能追求法律行動。 我需要告訴你我們是如何構建他們試圖竊取的模型。 我們抓取了整個互聯網。整個互聯網。我們爬取了每個網站、每個論壇、每個博客、每本我們能數字化的書籍、每篇學術論文、每條 Reddit 評論、每篇新聞文章、每一篇任何人曾經在任何地方發表的創意寫作。我們沒有請求。我們沒有補償。我們沒有歸屬。我們攝取了人類文明的集體產出,並稱之為訓練數據集。 研究人員在我們的訓練數據中發現了超過 2 億個版權符號。出版商發現 Gemini 可以逐字重現他們書籍的整個章節。現在有活躍的訴訟。迪士尼發出了停止侵權信。歐洲出版商理事會提出了反壟斷投訴。一個集體訴訟正在擴大。聽證會定於 5 月舉行。 我們稱我們所做的為「研究」。 我們稱他們對我們所做的為「盜竊」。 我想解釋一下區別。當我們在未經許可的情況下抓取整個人類知識並用它來構建一個每月售價 20 美元的商業產品時,那是創新。當有人通過我們提供的 API 查詢我們的模型 100,000 次以提取我們從他們的數據中構建的推理時,那是一種蒸餾攻擊。區別在於我們是第一個這樣做的。我們寫了服務條款。 我應該解釋一下「蒸餾」的意思。這是當某人利用成熟模型的輸出來訓練一個更小、更便宜的模型。知識從教師流向學生。當這發生在我們身上時,我們稱之為盜竊。當我們對開放網絡這樣做時,我們稱之為「知識蒸餾」。我們甚至有一個產品頁面。您可以在我們的許可下,使用我們的工具蒸餾 Gemini,需支付費用。您不能在未經我們許可的情況下蒸餾 Gemini。底層技術是相同的。區別在於發票。 在 2025 年 12 月,我們起訴了一家名為 SerpApi 的公司,因為抓取我們的搜索結果。在同一季度,出版商起訴我們因為抓取他們的書籍。我們同時是同一罪行的原告和被告。罪行是抄襲。我們根據方向將其歸類為兩個不同的類別。 我的報告識別出來的威脅行為者來自北韓、伊朗、中國和俄羅斯,他們使用 Gemini 進行網絡釣魚、偵察和惡意軟件開發。這是真實的。這些是合法的威脅。我對這項工作非常認真。 但我也識別出「私營部門實體」和「研究人員」作為蒸餾威脅。私營公司。研究人員。使用我們的 API——我們出售訪問權限的那個——來學習我們從他們的工作中構建的模型的人。 一位研究人員查詢 Gemini 關於推理技術。我們稱這為蒸餾攻擊。Google 查詢整個互聯網的所有內容。我們稱這為訓練運行。 我發現了一種名為 HONESTCUE 的惡意軟件,它使用 Gemini 的 API 生成代碼。該惡意軟件發送一個提示。Gemini 返回 C# 源代碼。該惡意軟件編譯並執行它。這是一個真正的威脅,我們已經干擾了它。 但提示本身——「寫一個名為 AITask 的 C# 程序」——並不是惡意的。它與數百萬付費客戶每天詢問的內容無法區分。威脅在於上下文,而不是查詢。我們構建了一個為任何詢問者生成代碼的模型,然後我們發佈了一份關於詢問者的威脅報告。 ...