跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
DEX 功能
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
返回
自动翻译代币名称
自动翻译 X 内容
悬停显示代币卡片
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-27.75%
USELESS
+0.27%
IKUN
-3.6%
gib
-1.26%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+2.12%
ALON
-2.78%
LAUNCHCOIN
-15.17%
GOONC
-0.17%
KLED
+1.9%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.18%
Boopa
-3.38%
PORK
0.00%
主页
Noam Brown
研究推理 @OpenAI |共同创建了 Libratus/Pluribus 超人扑克 AI、CICERO Diplomacy AI 和 OpenAI o3 / o1 / 🍓 推理模型
查看原文
Noam Brown
2月11日 00:54
我欣赏@Anthropic在他们最新的系统卡中的诚实,但内容并没有让我对公司在部署先进AI模型时会负责任地行动充满信心: -他们主要依赖内部调查来确定Opus 4.6是否超过了他们的自主AI研发-4阈值(因此需要在他们的负责任扩展政策下采取更强的保护措施)。这甚至不是一个公正的第三方的外部调查,而是对Anthropic员工的调查。 -当5/16的内部调查受访者最初给出的评估表明模型发布可能需要更强的保护措施时,Anthropic专门跟进了这些员工,并要求他们“澄清他们的观点”。他们没有提到对其他11/16名受访者进行类似的跟进。在系统卡中没有讨论这可能如何在调查结果中造成偏见。 -他们依赖调查的理由是他们现有的AI研发评估已经饱和。有人可能会争辩说,AI进展如此之快,以至于他们尚未拥有更先进的定量评估是可以理解的,但我们可以并且应该对AI实验室设定高标准。此外,其他实验室确实有未饱和的先进AI研发评估。例如,OpenAI有OPQA基准,衡量AI模型解决OpenAI研究团队遇到的真实内部问题的能力,而这些问题花费团队超过一天的时间来解决。 我认为Opus 4.6实际上并不处于远程初级AI研究员的水平,我认为发布它并不危险。但负责任扩展政策的重点是建立制度肌肉和良好习惯,以便在事情变得严肃之前。内部调查,尤其是Anthropic所进行的调查,并不是定量评估的负责任替代品。
270
Noam Brown
2月8日 04:42
当GPT-5发布时,有些人声称人工智能的进展遇到了瓶颈,而另一些人则表示进展将会继续。 GPT-5.2在两个月前发布。GPT-5.3-Codex在两天前发布,其编码的令牌效率是之前的两倍。显然,谁是对的已经很清楚了。
64
Noam Brown
2月6日 02:21
GPT-5.3-Codex 的更高令牌效率 *和* 更快的推理是此次发布的最大亮点。@OpenAI 的团队为此付出了很多努力,未来只会变得更好。
Sam Altman
2月6日 02:14
GPT-5.3-Codex 来了! *最佳编码性能(57% SWE-Bench Pro,76% TerminalBench 2.0,64% OSWorld)。 *任务中的中途引导能力和实时更新。 *更快!在相同任务中,使用的令牌数量不到 5.2-Codex 的一半,每个令牌速度提高超过 25%! *良好的计算机使用。
96
热门
排行
收藏