熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Nathan Lambert
弄清楚 AI @allen_ai、開放模型、RLHF、微調等
通過電子郵件聯繫。
寫入 @interconnectsai
撰寫了 RLHF 書
山地跑步者
很多人喜歡將不同類別的模型進行比較,比如“推理”或“非推理”,但實際上現在它們都是使用相同的強化學習技術(以及其他東西)進行訓練的。
正確的看法是將每個模型的發布視為推理努力的一個光譜。許多人說Claude是一個非推理模型,但他們是最早擁有特殊標記和“深思熟慮,稍等”的用戶體驗的模型之一(在他們的擴展思考模式之前)。對於已經發布但尚不易用的DeepSeek v3.1也可能是如此。我們不知道這些模型的聊天版本默認使用了多少個標記。
具有確切標記計數的API是唯一的真實來源,應該更頻繁地進行溝通。
然後,在推理模型中,使用的標記數量差異巨大。模型的價格應該是努力的最終考慮因素,結合總的活躍參數和使用的標記數量。在a16z播客中聽到Dylan Patel時,似乎GPT-5在我喜歡的思考模式(類似於o3)中的一個重大勝利是以幾乎減少50%的標記獲得稍微更好的結果。我感覺到這一點,它在任務上比o3更專注。
另一個要點是R1的第二代,R1-0528通過使用更多的推理來提高分數。Qwen也類似。這對用戶來說並不總是超級有價值。
在技術層面上,我們通過在評估結果中報告每個模型使用的標記數量來解決這個問題(尤其是相對於同類模型)。問題是AI發布現在相當主流,而這是一個微妙的技術細節需要溝通。
在研究方面,例如,通過在比同行更長的上下文中評估推理模型,可以有意義地提高評估分數。
標記中的推理努力,有時在系統提示中,現在是一個複雜的變量,而不是所有這些發布中的簡單是/否。
下面是一個截圖,來自於在o1發布之前(去年9月12日)討論此事的帖子,以及一個reddit用戶發現Claude思考行為的截圖。
保存這個長篇大論以備將來參考,因為我需要不斷重複這一切。


25.36K
很高興今年能在Curve上發言!我懷疑開放模型將再次成為重要的討論話題,期待聽到我平時網絡之外的人對此的看法。

Golden Gate Institute for AI8月20日 00:46
The Curve 的主要申請窗口將於本週五,8 月 22 日結束!
我們非常興奮能將這群優秀且~多元化的人聚集在同一個房間,討論關於 AI 未來的最棘手問題。
申請 + 更多關於將會出席的人資訊見下方 ⬇️

8.75K
生活更新:對於那些不知道的人,我幾年前加入了 @allen_ai,致力於開源AGI,我們很快就會發布它。

will brown8月18日 12:00
生活更新:對於那些不知道的人,我幾個月前加入了 @primeintellect,致力於開源AGI。對我們正在構建的東西感到無比興奮 🚀
176
Greg Brockman (@gdb),OpenAI的聯合創始人兼總裁,在最新的《潛在空間播客》中談到開放模型對他們業務的作用(約50:20):
我們在考慮開源模型時,另一個非常實際的層面是,基於我們的開源模型構建的人員實際上是在構建我們的技術棧。
如果你依賴我們來幫助改進模型,依賴我們獲得下一個突破,那麼這意味著你實際上有一種依賴關係,這在某種程度上對我們的業務是有利的,但我認為這對國家也是有利的。
你會考慮擁有一個美國技術棧,來自人們直接運行的模型。但接下來,這些模型將如何介面和相互作用,正如我們剛才討論的那樣,實際上使我們能夠構建一個完整的生態系統,讓人們能夠控制對他們重要的部分,最終建立在這些反映美國價值觀的模型上,然後能夠與美國的,希望是底層的晶片,以及後端的雲模型和執行環境等相互作用,所有這些結合在一起,我認為這增加了很多價值,我認為這也使美國的領導地位真正意味著我們在世界上擁有我們價值觀的領導地位。
32.94K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可