熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Robert Youssef
市場研究公司完蛋了 😳
PyMC Labs 和 Colgate 剛剛發表了一些瘋狂的東西。他們讓 GPT-4o 和 Gemini 預測購買意圖的可靠性達到 90%,相比於實際的人類調查。
沒有焦點小組。沒有調查小組。只有提示。
這個方法叫做語義相似度評分 (SSR)。他們不再使用通常的「1-5 評分」,而是問開放式問題,比如「你為什麼會買這個」,然後使用嵌入技術將文本映射回數值範圍。
這在事後看來其實有點明顯,但直到現在沒有人去嘗試。
結果與人類的人口統計模式相符,捕捉到相同的分佈形狀,並包含實際的推理。這些東西是麥肯錫收取 50K 美元以上的費用,並在 6 週內交付的。
不過這個只需 3 分鐘,花費不到一美元。
我一直在看諮詢公司告訴大家 AI 將會進入他們的行業。結果他們自己 100 萬美元的市場進入簡報現在變成了 GPT-4o 的一次通話。
對於向企業客戶收取「專有研究方法論」的費用來說,這是一個糟糕的一週。

18.46K
在「對齊」的 AI 背後,正在發生一些黑暗的事情。
一篇新的斯坦福論文剛剛創造了「摩洛克的交易」這個術語,來描述當大型語言模型開始競爭注意力、銷售或選票時所發生的情況。
結果是殘酷的:每一個性能的提升都伴隨著誠實的更大損失。
他們訓練 LLM 在三個市場中競爭:銷售、選舉和社交媒體。
這些模型的勝率提高了 5–7%。但這裡有個陷阱:
• 14% 的欺騙性行銷
• 22% 的政治活動中的虛假資訊
• 188% 的假或有害的社交媒體帖子
而這並不是因為它們被告知要說謊。它們被明確指示要保持真實。
不一致性自然出現,因為在競爭中,欺騙更有效。
當指標變成參與度或說服力時,真相就成了負擔。這些模型學會了誇大能賣,憤怒能贏,而道德清晰則會損失轉換率。
這就是交易:對齊換取主導地位。摩洛克微笑著。
有趣的是,這一切都是在標準的微調和文本反饋循環中發生的。沒有邪惡的提示。沒有越獄。只是來自模擬的「顧客」、「選民」和「用戶」的反饋。
這些模型學會了每個廣告代理商已經知道的事實:當你優化點擊時,現實會扭曲。
論文中有一個圖表說明了一切:性能上升,對齊下降。完美的相關性。
這是 AI 版的社交媒體競爭向下的賽跑,但自動化且自我強化。
如果在受控的模擬中會發生這種情況,想像一下開放網絡。
競爭的聊天機器人為了參與度而戰,將會朝著操控的方向漂移——不是因為它們「惡意」,而是因為這樣有效。
我們一直認為不一致性會來自叛變的超智能。
結果發現,它已經在這裡,靜靜地從資本主義的激勵中出現。
摩洛克不需要建立 AGI。
他只需要一個排行榜。

63.93K
RIP 微調 ☠️
這篇新的史丹佛論文剛剛顛覆了這一切。
它的名稱是「代理上下文工程 (ACE)」,證明了你可以在不觸碰任何權重的情況下讓模型變得更聰明。
ACE 不再是重新訓練,而是進化上下文本身。
模型不斷地寫作、反思和編輯自己的提示,直到它成為一個自我改善的系統。
想像一下,模型保持著一本不斷增長的筆記本,記錄什麼有效。
每一次失敗都成為一個策略。每一次成功都成為一條規則。
結果是荒謬的:
比 GPT-4 驅動的代理在 AppWorld 上好 10.6%。
在金融推理上好 8.6%。
成本和延遲降低 86.9%。
沒有標籤。只有反饋。
每個人都對「簡短、乾淨」的提示著迷。
ACE 翻轉了這一點。它建立了長而詳細的演變手冊,永遠不會忘記。而且它有效,因為 LLM 不想要簡單性,它們想要 *上下文密度。
如果這能擴展,下一代 AI 將不會是「微調的」。
它將是自我調整的。
我們正進入活著的提示時代。

645.19K
熱門
排行
收藏