跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-7.4%
USELESS
+0.96%
IKUN
+6.87%
gib
-12.27%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+1.57%
ALON
-5.6%
LAUNCHCOIN
+4.35%
GOONC
-17.53%
KLED
-6.69%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.25%
Boopa
-6.2%
PORK
-0.86%
主頁
steve hsu
物理學家、AI 創始人、Manifold播客
查看原文
steve hsu
13 小時前
我和甘尼薩在學校操場旁
2.21K
33
steve hsu
20 小時前
習慣這種事情吧…… 中國對美國的出口佔他們GDP的比例不到3%。他們真的不需要再考慮我們了。
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
10月3日 06:00
仍然覺得有趣的是,在 Dario 和 Wenfeng 之間,只有一個人有個人部落格,寫關於 DeepSeek 的內容,而那個人不是 Wenfeng。
18.79K
296
steve hsu
10月1日 21:26
「想像訓練」是指代理的策略完全在學習到的世界模型內部(即在「想像」中)進行優化的過程,而不需要進一步的真實環境互動。 對於真實的機器人,工廠環境的視頻(包括行動及其效果)將用於建立一個現實的世界模型,然後通過想像訓練來開發機器人的行為規則(策略)。 「我們介紹 Dreamer 4,一個可擴展的代理,通過在快速且準確的世界模型內進行強化學習來學習解決複雜的控制任務。該代理由一個標記器和一個動態模型組成,如圖 2 所示。標記器將視頻幀壓縮為連續表示,而動態模型則根據交錯的行動預測這些表示,兩者都使用相同的高效變壓器架構。標記器使用遮罩自編碼進行訓練,而動態模型則使用快捷強制目標進行訓練,以便在少量的前向傳遞中實現互動生成,並防止隨時間累積錯誤。如算法 1 所述,我們首先在視頻和行動上預訓練標記器和世界模型,然後通過交錯任務嵌入來微調策略和獎勵模型,最後通過想像訓練對策略進行後訓練。
3.24K
6
熱門
排行
收藏