跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-8.53%
USELESS
-21%
IKUN
-13.19%
gib
-7.91%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-3.44%
ALON
-15.77%
LAUNCHCOIN
-8.94%
GOONC
-4.17%
KLED
+35.5%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.66%
Boopa
+4.52%
PORK
+16.76%
主页
Y
语言与思想
查看原文
Y
10月11日 06:33
Mamba-3 即将推出! 比 Transformers 和快速权重程序(FWP)表现更好 ()
26.81K
254
Y
10月2日 05:02
很高兴看到@thinkymachines的新Tinker-docs,它们确认了GRPO损失中的不一致性。 我们在之前的工作中探讨了这个问题(),并开发了一种更稳健的方法,显著提高了性能: • 相较于GRPO提高了12个绝对点 • 相较于DAPO提高了6个绝对点 我们的论文详细介绍了KL正则化策略梯度算法的设计,我们的代码库提供了修正后的实现。 论文: 代码:
15.47K
178
热门
排行
收藏