メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
インサイトハブ
エコシステム案内所
セキュリティ
開発者向け
分散型取引所API
DEX API を調べる
DEX API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
DAppでウォレットを連携する
Boost
X Launch
X Launch に参加してトークンを獲得できます。
プロジェクト特典
タスクを完了してエアドロップを手に入れよう
取引コンペティション
トレンドのトークンを取引して賞金を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
戻る
戻る
チュートリアル
詳しく知る
サポートセンター
What can I do with Discover
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
-6.51%
USELESS
-1.99%
IKUN
-10.23%
gib
-5.65%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
+1.47%
ALON
-2.89%
LAUNCHCOIN
+5.43%
GOONC
-10.11%
KLED
-2.28%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
+0.34%
Boopa
-8.72%
PORK
-0.86%
Profile
steve hsu
物理学者、AI創設者、Manifold Podcast
オリジナルを表示
steve hsu
8時間前
私とガネーシャは校庭のそばにいます
2.18K
33
steve hsu
14時間前
こういうことに慣れて...中国の対米輸出はGDPの3%未満です。彼らはもう私たちのことを考える必要はありません。
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
10月3日 06:00
それでも面白いのは、ダリオとウェンフェンの間で、DeepSeekについて書いている個人ブログを持っているのは1人だけで、それはウェンフェンではないということです
15.56K
250
steve hsu
10月1日 21:26
「想像力トレーニング」とは、エージェントのポリシーが、学習された世界モデル内(つまり「想像力」)内で完全に最適化され、それ以上の現実環境との相互作用なしに最適化されるプロセスを指します。 実際のロボットの場合、工場環境のビデオ(アクションとその効果を含む)を使用して現実的な世界モデルを構築し、それを使用して想像力トレーニングを介してロボットの行動ルール(ポリシー)を開発します。 「Dreamer 4 は、高速で正確なワールド モデル内で強化学習によって複雑な制御タスクを解決することを学習するスケーラブルなエージェントです。エージェントは、図 2 に示すように、トークナイザーとダイナミクス モデルで構成されています。トークナイザーはビデオフレームを連続表現に圧縮し、ダイナミクスモデルは、同じ効率的なトランスフォーマーアーキテクチャを使用して、インターリーブアクションが与えられた表現を予測します。トークナイザーはマスクされたオートエンコーディングを使用してトレーニングされ、ダイナミクスはショートカット強制目標を使用してトレーニングされ、少数のフォワードパスでインタラクティブな生成を可能にし、時間の経過に伴うエラーの蓄積を防ぎます。アルゴリズム 1 で概説したように、最初にビデオとアクションでトークナイザーとワールド モデルを事前トレーニングし、次にタスク埋め込みをインターリーブしてポリシーと報酬モデルをワールド モデルに微調整し、最後に想像力トレーニングを通じてポリシーをポストトレーニングします。」
3.2K
6
トップ
ランキング
お気に入り