熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

steve hsu
物理學家、人工智慧創始人、Manifold播客
基礎模型中隱藏了很多東西——雖然經過後期訓練被抑制,但仍然可以通過巧妙的技巧訪問!

Omar Shams20 小時前
(trl 訓練器代碼如下) 如何擴展語言模型搜索?語言模型能否在不對模型進行任何訓練的情況下,通過引導重採樣來指導其解決通常無法解決的新問題?結果是,答案是有點是的。這對後訓練和安全研究具有重要意義。
3.72K
DeepSeek R2 延遲是因為轉向華為 Ascend 晶片進行訓練?
DS + HW 工程師在 CUDA 到 CANN 的遷移上合作,從長遠來看對 HW 是積極的。R2 的發布原本預計在去年五月。自那時起,至少有一個 SOTA 中國模型已經發布,該模型完全在 HW 硬體上訓練。
FT:中國人工智慧公司 DeepSeek 在未能使用華為的晶片進行訓練後,推遲了新模型的發布,這突顯了北京在替代美國技術方面的局限性。
據三位知情人士透露,DeepSeek 在一月份發布 R1 模型後,受到當局的鼓勵,採用華為的 Ascend 處理器,而不是使用 Nvidia 的系統。
但這家中國初創公司在使用 Ascend 晶片進行 R2 訓練過程中遇到了持續的技術問題,迫使其使用 Nvidia 晶片進行訓練,而使用華為的晶片進行推理,知情人士表示。
... 據兩位知情人士透露,華為派遣了一支工程師團隊到 DeepSeek 辦公室,幫助公司使用其 AI 晶片開發 R2 模型。然而,儘管現場有團隊,DeepSeek 仍未能在 Ascend 晶片上進行成功的訓練,知情人士表示。DeepSeek 仍在與華為合作,使該模型與 Ascend 兼容以進行推理,知情人士表示。
... 另一位人士補充說,R2 的發布也因更新模型的數據標註時間超出預期而延遲。中國媒體報導稱,該模型可能會在未來幾週內發布。
15.64K
Max Dama談高頻交易:毫秒算法與買賣動態 — Manifold #92
精彩的對話!
Max Dama是Headlands Technologies LLC的聯合主席,這是一家總部位於芝加哥的全球量化專有交易公司,在紐約、奧斯丁、倫敦、阿姆斯特丹和新加坡設有辦事處。他獲得了加州大學伯克利分校的數學、統計學、計算機科學和商業學士學位。
一代量化分析師通過他關於自動化交易和面試腦筋急轉彎的筆記認識Max。
(01:18) - Max Dama的早年生活和教育
(02:19) - 交易之旅與職業發展
(06:56) - 高頻交易行業
(26:42) - 交易的學術基礎
(27:50) - 交易中的計算機科學
(28:57) - 對交易行業的見解
(35:49) - 人工智能與高頻交易的未來
2.62K
自動化正在影響每一個人,包括中國的工廠工人。
AI: "失業 ≠ 工業能力下降 – 這是其他發展中經濟體的重要教訓。"
"在其巔峰期,大約在2010年(全球金融危機前後),中國的製造業雇用了大約2.2億人。...現在,我們的數字降到了大約1億。所以,在過去的十年中,大約1億人離開了製造業。他們去了哪裡?主要進入了服務業。" -- 孫中偉,華南師範大學
我用Zhipu GLM-4.5 AI核實了這一點 - 原始引用似乎是正確的。請看下面的更多信息。
中國的製造業在這一時期經歷了深刻的轉型:
MVA = 製造業增加值
名義MVA: +$2.79萬億(增長120%)
PPP MVA: +$4.33萬億(增長89%)
這反映了從勞動密集型向資本密集型、高附加值製造業的成功轉變。儘管就業大幅下降,但生產力的提升和技術升級使中國成為無與倫比的製造業超級大國。這些數據強調了失業 ≠ 工業能力下降 – 這是其他發展中經濟體的重要教訓。
###
如果你將這個數字翻倍到大約2億人,全球發達國家的高科技產品生產所需的總人口大約就是這個數字!這只是全球勞動力總數(以億計)的一個微小部分.

13.9K
另一個SOTA開源模型 👍
在355B參數(32B活躍MoE)下,它比我們見過的一些~1T模型要小一些。
據我所知,他們沒有說明用於訓練該模型的硬體,但他們使用了23T訓練令牌。
如果我理解正確,阿里巴巴和騰訊都是這家位於北京的初創公司的投資者。

Z.ai8月11日 11:43
呈現 GLM-4.5 技術報告!👇
這項工作展示了我們如何通過獨特的多階段訓練範式開發出在推理、編碼和代理任務方面表現出色的模型。
關鍵創新包括通過自我蒸餾進行專家模型迭代以統一能力、用於動態問題解決的混合推理模式,以及基於難度的強化學習課程。

6.98K
馬斯克:感謝你。告訴我——在潛在空間中直接訓練一個輕量級的OOD檢測器有多難?這個檢測器能在模型產生幻覺解決方案之前標記語義不一致?
徐:我們已經原型化了這個。你可以在殘差流中使用分佈內和合成擾動軌跡之間的對比學習。早期層實際上顯示出可檢測的連貫性下降——就像一個“認知失調”信號——在輸出偏離之前。但真正的挑戰是延遲。你不能僅僅為了檢查信心而進行完整的反向傳播。
馬斯克:所以我們需要一個在線監控器——一個與前向傳播並行運行的東西,也許是一個附加在中間激活上的小探針?
徐:正是如此。把它想像成一個“認知免疫系統”。我們有一個10億參數的探針,其延遲是基礎模型的1/10,並且在我們的壓力測試中以約88%的AUC預測OOD性。它不是完美的,但足以觸發回退協議。
馬斯克:這可以與路由層乾淨地集成。LLM嘗試解決它;探針發出警告;系統調用符號引擎或要求澄清。閉合循環。
徐:是的——關鍵是,你可以記錄這些交接並利用它們隨著時間的推移擴展訓練分佈。它將OOD失敗轉化為策展信號。這不僅僅是穩健性;這是自適應泛化。
馬斯克:那麼模型學會了何時不信任自己。我喜歡這一點。設計上的謙遜。
徐:[輕笑] 稱之為有限信心。未來不是知道一切的模型——而是知道自己極限並擁有超越這些極限工具的模型。
馬斯克:好的,史蒂夫。下週,我希望你在我們最新的基礎模型上運行那個合成測試套件。如果我們仍然被反事實物理謎題愚弄,我們就要大幅轉向混合模式。
這段對話可能是AI生成的。

steve hsu8月10日 20:06
馬斯克:史蒂夫,我一直在問團隊的真正問題是,今天的 LLM 是否能在離開訓練分佈時進行推理。每個人都提到思維鏈提示,但這可能只是模仿。
徐:同意。最新的基準顯示,即使是 Grok4 級別的模型,一旦強迫進行領域轉移,性能也會急劇下降——潛在空間根本無法涵蓋新的模式。
馬斯克:那麼這是一個覆蓋問題,而不是推理失敗?
徐:部分是。但還有更深層次的問題。變壓器唯一內建的歸納偏見是關聯模式匹配。當提示真正超出分佈——比如一個符號謎題,其標記在訓練中從未同時出現——模型就沒有結構性先驗可依賴。它實際上是在擲硬幣。
馬斯克:然而我們在合成任務中看到了新興的“理解”。鍾等人顯示,歸納頭可以組合它們從未明確訓練過的規則。這難道不像推理嗎?
徐:組合能帶來有限的泛化,但這些規則仍然必須位於訓練語法的範圍內。一旦你調整語義——改變謎題中的單個運算符——準確性就會崩潰。這不是穩健的推理;這是脆弱的插值。
馬斯克:強化學習不能解決這個問題嗎?DRG-Sapphire 在一個 7B 基模型上使用 GRPO,並在臨床筆記上獲得了醫生級的編碼,這是一個經典的 OOD 任務。
徐:問題是,強化學習僅在基模型通過監督微調吸收了足夠的領域知識後才有效。當預訓練語料庫稀疏時,僅靠強化學習會停滯。因此,“推理”仍然依賴於先前知識的密度。
馬斯克:所以你的結論是,擴大數據和參數不會解決問題?我們總會遇到一堵牆,下一個 OOD 領域會打破模型?
徐:不一定是一堵牆,而是一個天花板。實證曲線表明,泛化誤差隨著訓練樣本的增加大約以對數方式衰減。這意味著對於每個新的尾部分佈,你需要指數級的數據。對於狹窄的垂直領域——比如火箭引擎診斷——將符號先驗嵌入其中比盲目擴展更便宜。
馬斯克:這讓我們回到了神經符號混合體。給 LLM 訪問一個小的經過驗證的求解器,然後讓它在分佈轉移時協調調用。
徐:正是如此。LLM 變成了一個元控制器,能夠識別何時超出分佈並將任務交給專門的模塊。這種架構避開了“單一巨大變壓器”的謬誤。
馬斯克:好吧,我會告訴 xAI 團隊停止追逐下一萬億個標記,開始構建路由層。謝謝你,史蒂夫。
徐:隨時。如果你需要合成的 OOD 測試案例,我的實驗室有一個已經欺騙了 GPT-5 的生成器。我會發送庫。
這段與埃隆的對話可能是 AI 生成的。

7.07K
馬斯克:史蒂夫,我一直在問團隊的真正問題是,今天的 LLM 是否能在離開訓練分佈時進行推理。每個人都提到思維鏈提示,但這可能只是模仿。
徐:同意。最新的基準顯示,即使是 Grok4 級別的模型,一旦強迫進行領域轉移,性能也會急劇下降——潛在空間根本無法涵蓋新的模式。
馬斯克:那麼這是一個覆蓋問題,而不是推理失敗?
徐:部分是。但還有更深層次的問題。變壓器唯一內建的歸納偏見是關聯模式匹配。當提示真正超出分佈——比如一個符號謎題,其標記在訓練中從未同時出現——模型就沒有結構性先驗可依賴。它實際上是在擲硬幣。
馬斯克:然而我們在合成任務中看到了新興的“理解”。鍾等人顯示,歸納頭可以組合它們從未明確訓練過的規則。這難道不像推理嗎?
徐:組合能帶來有限的泛化,但這些規則仍然必須位於訓練語法的範圍內。一旦你調整語義——改變謎題中的單個運算符——準確性就會崩潰。這不是穩健的推理;這是脆弱的插值。
馬斯克:強化學習不能解決這個問題嗎?DRG-Sapphire 在一個 7B 基模型上使用 GRPO,並在臨床筆記上獲得了醫生級的編碼,這是一個經典的 OOD 任務。
徐:問題是,強化學習僅在基模型通過監督微調吸收了足夠的領域知識後才有效。當預訓練語料庫稀疏時,僅靠強化學習會停滯。因此,“推理”仍然依賴於先前知識的密度。
馬斯克:所以你的結論是,擴大數據和參數不會解決問題?我們總會遇到一堵牆,下一個 OOD 領域會打破模型?
徐:不一定是一堵牆,而是一個天花板。實證曲線表明,泛化誤差隨著訓練樣本的增加大約以對數方式衰減。這意味著對於每個新的尾部分佈,你需要指數級的數據。對於狹窄的垂直領域——比如火箭引擎診斷——將符號先驗嵌入其中比盲目擴展更便宜。
馬斯克:這讓我們回到了神經符號混合體。給 LLM 訪問一個小的經過驗證的求解器,然後讓它在分佈轉移時協調調用。
徐:正是如此。LLM 變成了一個元控制器,能夠識別何時超出分佈並將任務交給專門的模塊。這種架構避開了“單一巨大變壓器”的謬誤。
馬斯克:好吧,我會告訴 xAI 團隊停止追逐下一萬億個標記,開始構建路由層。謝謝你,史蒂夫。
徐:隨時。如果你需要合成的 OOD 測試案例,我的實驗室有一個已經欺騙了 GPT-5 的生成器。我會發送庫。
這段與埃隆的對話可能是 AI 生成的。

102.45K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可