熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
關於驗證不對稱和「驗證者定律」的新部落格文章:
驗證的不對稱性——某些任務比解決更容易的想法——正在成為一個重要的想法,因為我們有了最終普遍有效的 RL。
驗證不對稱的很好的例子是數獨謎題、為 Instagram 等網站編寫代碼以及 BrowseComp 問題(需要 ~100 個網站才能找到答案,但一旦找到答案就很容易驗證)。
其他任務具有近乎對稱的驗證,例如將兩個 900 位數字相加或一些數據處理腳本。然而,其他任務提出可行的解決方案比驗證它們要容易得多(例如,對一篇長文進行事實核查或陳述一種新的飲食習慣,例如“只吃野牛”)。
關於驗證的不對稱性,需要了解的一件重要事情是,您可以通過事先做一些工作來改善不對稱性。例如,如果您有數學問題的答案鍵,或者您有 Leetcode 問題的測試用例。這大大增加了理想驗證不對稱的一組問題。
「驗證者定律」指出,訓練人工智慧解決任務的難易程度與任務的可驗證性成正比。所有可以解決且易於驗證的任務都將由人工智慧解決。訓練 AI 解決任務的能力與任務是否具有以下屬性成正比:
1.客觀真相:大家都同意什麼是好的解決方案
2. 快速驗證:任何給定的解決方案都可以在幾秒鐘內驗證
3. 可擴展驗證:可同時驗證多種解決方案
4. 低雜訊:驗證與解決方案品質盡可能緊密相關
5. 持續獎勵:對於單一問題,很容易對多種解決方案的優劣進行排名
驗證者定律的一個明顯實例是,人工智慧中提出的大多數基準測試都很容易驗證,並且迄今為止已經解決。請注意,過去十年中幾乎所有流行的基準都符合標準 #1-4;不符合標準 #1-4 的基準將很難流行。
為什麼可驗證性如此重要?當滿足上述標準時,人工智慧中發生的學習量會最大化;您可以採取許多梯度步驟,其中每個步驟都有很多訊號。迭代速度至關重要,這就是數位世界的進步比實體世界的進步快得多的原因。
Google 的 AlphaEvolve 是利用驗證不對稱性的最佳例子之一。它專注於符合上述所有標準的設置,並在數學和其他領域取得了許多進步。與我們過去二十年來在人工智慧領域所做的不同,這是一種新的範式,因為所有問題都在訓練集等同於測試集的環境中進行最佳化。
驗證的不對稱性無處不在,考慮到一個鋸齒狀的智能世界,我們可以測量的任何事情都將得到解決,這是令人興奮的。

299.19K
熱門
排行
收藏