一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

發現功能使用指南

background background

discoveryBanners

熱門話題

#

Bonk 生態迷因幣展現強韌勢頭

#

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

LAUNCHCOIN+4.35%

#

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

header

steve hsu

物理學家、AI 創始人、Manifold播客

steve hsu

steve hsu13 小時前

我和甘尼薩在學校操場旁

2.21K

steve hsu

steve hsu20 小時前

習慣這種事情吧…… 中國對美國的出口佔他們GDP的比例不到3%。他們真的不需要再考慮我們了。

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)10月3日 06:00

仍然覺得有趣的是，在 Dario 和 Wenfeng 之間，只有一個人有個人部落格，寫關於 DeepSeek 的內容，而那個人不是 Wenfeng。

18.79K

steve hsu

steve hsu10月1日 21:26

「想像訓練」是指代理的策略完全在學習到的世界模型內部（即在「想像」中）進行優化的過程，而不需要進一步的真實環境互動。對於真實的機器人，工廠環境的視頻（包括行動及其效果）將用於建立一個現實的世界模型，然後通過想像訓練來開發機器人的行為規則（策略）。「我們介紹 Dreamer 4，一個可擴展的代理，通過在快速且準確的世界模型內進行強化學習來學習解決複雜的控制任務。該代理由一個標記器和一個動態模型組成，如圖 2 所示。標記器將視頻幀壓縮為連續表示，而動態模型則根據交錯的行動預測這些表示，兩者都使用相同的高效變壓器架構。標記器使用遮罩自編碼進行訓練，而動態模型則使用快捷強制目標進行訓練，以便在少量的前向傳遞中實現互動生成，並防止隨時間累積錯誤。如算法 1 所述，我們首先在視頻和行動上預訓練標記器和世界模型，然後通過交錯任務嵌入來微調策略和獎勵模型，最後通過想像訓練對策略進行後訓練。

3.24K

熱門

排行

收藏

©2017 - 2025 WEB3.OKX.COM

繁體中文简体中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

關於 OKX Wallet

下載學院關於我們就業機會聯繫我們服務條款隱私政策 X (原推特)

產品

行情幣幣兌換市場賺幣發現開發者中心瀏覽器安全

用戶支持

幫助中心官方渠道驗證公告 DEX 費率標準加入 OKX 社群比特幣錢包以太坊錢包 Solana 錢包