一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

探索 Web3 Giveaway 活動，每週豐厚獎勵等您來領取

熱門話題

Bonk 生態迷因幣展現強韌勢頭

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

BOOP-9.47%

Boopa-2%

PORK-10.83%

Nathan Lambert

弄清楚 AI @allen_ai、開放模型、RLHF、微調等通過電子郵件聯繫。寫入 @interconnectsai 撰寫了 RLHF 書山地跑步者

Nathan Lambert8月20日 09:09

很多人喜歡將不同類別的模型進行比較，比如“推理”或“非推理”，但實際上現在它們都是使用相同的強化學習技術（以及其他東西）進行訓練的。正確的看法是將每個模型的發布視為推理努力的一個光譜。許多人說Claude是一個非推理模型，但他們是最早擁有特殊標記和“深思熟慮，稍等”的用戶體驗的模型之一（在他們的擴展思考模式之前）。對於已經發布但尚不易用的DeepSeek v3.1也可能是如此。我們不知道這些模型的聊天版本默認使用了多少個標記。具有確切標記計數的API是唯一的真實來源，應該更頻繁地進行溝通。然後，在推理模型中，使用的標記數量差異巨大。模型的價格應該是努力的最終考慮因素，結合總的活躍參數和使用的標記數量。在a16z播客中聽到Dylan Patel時，似乎GPT-5在我喜歡的思考模式（類似於o3）中的一個重大勝利是以幾乎減少50%的標記獲得稍微更好的結果。我感覺到這一點，它在任務上比o3更專注。另一個要點是R1的第二代，R1-0528通過使用更多的推理來提高分數。Qwen也類似。這對用戶來說並不總是超級有價值。在技術層面上，我們通過在評估結果中報告每個模型使用的標記數量來解決這個問題（尤其是相對於同類模型）。問題是AI發布現在相當主流，而這是一個微妙的技術細節需要溝通。在研究方面，例如，通過在比同行更長的上下文中評估推理模型，可以有意義地提高評估分數。標記中的推理努力，有時在系統提示中，現在是一個複雜的變量，而不是所有這些發布中的簡單是/否。下面是一個截圖，來自於在o1發布之前（去年9月12日）討論此事的帖子，以及一個reddit用戶發現Claude思考行為的截圖。保存這個長篇大論以備將來參考，因為我需要不斷重複這一切。

25.36K

Nathan Lambert8月20日 02:08

剛剛簽署了《RLHF書》的出版協議，期待在這個秋天對其進行改進，並儘快將實體書送到你們手中 :) (rlhfbook dot com)

40.86K

Nathan Lambert8月20日 00:53

很高興今年能在Curve上發言！我懷疑開放模型將再次成為重要的討論話題，期待聽到我平時網絡之外的人對此的看法。

Golden Gate Institute for AI8月20日 00:46

The Curve 的主要申請窗口將於本週五，8 月 22 日結束！我們非常興奮能將這群優秀且~多元化的人聚集在同一個房間，討論關於 AI 未來的最棘手問題。申請 + 更多關於將會出席的人資訊見下方 ⬇️

8.75K

Nathan Lambert 已轉發

Luca Soldaini 🎀8月19日 00:35

OLMo 2 是最先進的網頁重寫工具嗎？？

46.27K

Nathan Lambert8月18日 21:37

生活更新：對於那些不知道的人，我幾年前加入了 @allen_ai，致力於開源AGI，我們很快就會發布它。

will brown8月18日 12:00

生活更新：對於那些不知道的人，我幾個月前加入了 @primeintellect，致力於開源AGI。對我們正在構建的東西感到無比興奮 🚀

176

Nathan Lambert8月17日 22:06

人們從開放路由器市場份額圖中得出了太多結論。你應該只依賴它來： a) 開放模型， b) 在其他地方沒有 API 提供， c) 這是一個非常奇怪的小眾市場（這仍然很酷，但並不是行業定義的）

29.6K

Nathan Lambert8月17日 01:50

Claude Code與Opus和GPT-5 Pro值得這個價錢。

77.23K

Nathan Lambert8月17日 01:13

GPT 5 Pro 感覺就像我對 o3 pro 的期望（它沒有實現）：強大、詳細的搜尋模型。每當我想要類似深入研究的東西，但需要的是答案而不是報告時，我都會使用它。

38.7K

Nathan Lambert8月16日 06:58

Greg Brockman (@gdb)，OpenAI的聯合創始人兼總裁，在最新的《潛在空間播客》中談到開放模型對他們業務的作用（約50:20）：我們在考慮開源模型時，另一個非常實際的層面是，基於我們的開源模型構建的人員實際上是在構建我們的技術棧。如果你依賴我們來幫助改進模型，依賴我們獲得下一個突破，那麼這意味著你實際上有一種依賴關係，這在某種程度上對我們的業務是有利的，但我認為這對國家也是有利的。你會考慮擁有一個美國技術棧，來自人們直接運行的模型。但接下來，這些模型將如何介面和相互作用，正如我們剛才討論的那樣，實際上使我們能夠構建一個完整的生態系統，讓人們能夠控制對他們重要的部分，最終建立在這些反映美國價值觀的模型上，然後能夠與美國的，希望是底層的晶片，以及後端的雲模型和執行環境等相互作用，所有這些結合在一起，我認為這增加了很多價值，我認為這也使美國的領導地位真正意味著我們在世界上擁有我們價值觀的領導地位。

32.94K

Nathan Lambert8月15日 21:53

我不同意@dwarkesh_sp關於持續學習是當前人工智慧發展主要瓶頸的看法。這可能是使「更高效和更像人類的人工智慧」的一個瓶頸，但語言模型在快速而準確地適應個人工作方面已經走在了正確的軌道上。

62.55K