メインコンテンツへスキップ
簡単取引
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
ポートフォリオ
さらに見る
商品
DeFi
特典ナビ
特典センター
マケプレ
インサイトハブ
エコシステム案内所
紹介
セキュリティ
開発者向け
分散型取引所API
DEX API を調べる
DEX API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
DAppでウォレットを連携する
アラート
言語
通貨
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
戻る
戻る
チュートリアル
詳しく知る
サポートセンター
Explore Web3 Giveaway for more exciting rewards
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
-5.58%
USELESS
-3.33%
IKUN
-4.04%
gib
-10.81%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
+0.29%
ALON
+3.64%
LAUNCHCOIN
+42.78%
GOONC
+68.64%
KLED
-13.64%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
+1.98%
Boopa
-5%
PORK
+4.77%
Profile
Prime Intellect
Prime Intellect reposted
will brown
14時間前
簡単な小さなチートシート
さらに表示する
15.3K
231
Prime Intellect reposted
TBPN
20時間前
.@willccbb (Prime Intellect リサーチ リード) が RL 環境が実際にどのように機能するかについて: 「環境は本質的に評価です。入力タスクとハーネスがあり、最後にモデルやエージェントのパフォーマンスをスコアリングします。これが、評価とRLトレーニングの両方に使用するセットアップです。」 彼は、未来は単に「1 つの巨大なクラスターに 100,000 個の GPU を搭載すること」だけではないと付け加えています。
さらに表示する
17.69K
123
Prime Intellect reposted
Andrej Karpathy
23時間前
事前トレーニングの時代には、重要なのはインターネットテキストでした。主に、学習するための大規模で多様で高品質のインターネットドキュメントのコレクションが必要です。 監視された微調整の時代には、それは会話でした。契約社員は、Stack Overflow や Quora などで見られるものと少し似ていますが、LLM のユースケースを対象としています。 上記の2つはどちらもなくなるわけではありませんが(imo)、この強化学習の時代では、それは今や環境です。上記とは異なり、LLM に実際に対話する機会を与えます - アクションを実行したり、結果を確認したりします。これは、統計的な専門家の模倣よりもはるかに良いことを期待できることを意味します。また、モデルのトレーニングと評価の両方に使用できます。しかし、以前と同様に、今の中心的な問題は、LLM が練習するための演習として、大規模で多様で高品質の環境セットが必要になることです。 ある意味、OpenAI の最初のプロジェクト (gym) を思い出しますが、これはまさに同じスキーマで環境の大規模なコレクションを構築することを望んでいるフレームワークでしたが、これは LLM のずっと前のことでした。つまり、環境はカートポールやATARIなど、当時の単純な学術的な制御タスクでした。@PrimeIntellect環境ハブ (および GitHub の「検証者」リポジトリ) は、特に LLM を対象とした最新バージョンを構築しており、これは大きな努力/アイデアです。私は今年の初めに誰かに同様のものを作るように提案しました。 環境には、フレームワークの骨格が整えば、原則としてコミュニティ/業界が多くの異なるドメインにわたって並列化できるという特性があり、これはエキサイティングです。 最終的な考え - 個人的にも長期的にも、私は環境とエージェントの相互作用には強気ですが、特に強化学習には弱気です。報酬関数は超素晴らしいものだと思いますし、人間は学習にRLを使わないと思います(運動タスクなどには使いますが、知的問題解決タスクには使わないかもしれません)。人間は、はるかに強力でサンプル効率が高く、初期のスケッチやアイデアは存在しますが、まだ適切に発明され、拡張されていないさまざまな学習パラダイムを使用しています(ほんの一例として、「システムプロンプト学習」のアイデアは、更新を重みではなくトークン/コンテキストに移動し、オプションで睡眠のように別のプロセスとして重みに蒸留します)。
さらに表示する
520.42K
5.05K
トップ
ランキング
お気に入り
Uniswap
分散型取引所
PumpSwap
分散型取引所
Bluefin AMM
分散型取引所
4
AutoShark Finance
分散型金融(DeFi)
5
Pancake Swap
分散型金融(DeFi)
DEX
ステーキング
利回り
6
0x Protocol
分散型金融(DeFi)
DEX
7
OKX DEX
DEX
8
MarginFi
分散型金融(DeFi)
9
Transit Swap
分散型取引所
10
KLAYswap
分散型金融(DeFi)
DEX
ステーキング
利回り