跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
DEX 功能
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
返回
自動翻譯代幣名稱
自動翻譯 X 內容
懸停顯示代幣卡片
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+7.82%
USELESS
+6.61%
IKUN
+14.43%
gib
+7.59%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+5.52%
ALON
+10.21%
LAUNCHCOIN
+7.5%
GOONC
+8.08%
KLED
+11.58%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.35%
Boopa
+10.52%
PORK
0.00%
主頁
Noam Brown
研究推理 @OpenAI |共同創建了 Libratus/Pluribus 超人撲克 AI、CICERO Diplomacy AI 和 OpenAI o3 / o1 / 🍓 推理模型
查看原文
Noam Brown
2月11日 00:54
我感謝@Anthropic在他們最新的系統卡中表現出的誠實,但內容並未讓我對該公司在部署先進AI模型時會負責任地行事感到信心: - 他們主要依賴內部調查來確定Opus 4.6是否超過了他們的自主AI R&D-4門檻(因此需要在他們的負責任擴展政策下釋放時採取更強的保障措施)。這甚至不是一個公正的第三方的外部調查,而是Anthropic員工的調查。 - 當5/16的內部調查受訪者最初給出的評估表明模型釋放可能需要更強的保障時,Anthropic特別跟進了這些員工,並要求他們“澄清他們的看法”。他們並未提及對其他11/16名受訪者進行類似的跟進。系統卡中沒有討論這可能如何在調查結果中產生偏見。 - 他們依賴調查的原因是他們現有的AI R&D評估已經飽和。有人可能會辯稱,AI的進展如此之快,以至於他們尚未擁有更先進的定量評估,但我們可以並且應該對AI實驗室提出高標準。此外,其他實驗室確實擁有未飽和的先進AI R&D評估。例如,OpenAI擁有OPQA基準,該基準衡量AI模型解決OpenAI研究團隊遇到的實際內部問題的能力,這些問題花費團隊超過一天的時間來解決。 我不認為Opus 4.6實際上達到了遠程初級AI研究員的水平,我也不認為釋放它是危險的。但負責任擴展政策的重點是,在事情變得嚴重之前建立制度肌肉和良好習慣。內部調查,尤其是Anthropic所進行的調查,並不是定量評估的負責任替代品。
310
Noam Brown
2月8日 04:42
當 GPT-5 發布時,有些人聲稱 AI 的進展遇到了瓶頸,而另一些人則表示進展將會持續。 GPT-5.2 在兩個月前發布。GPT-5.3-Codex 在兩天前發布,對於編碼來說,它的令牌效率是之前的兩倍。顯然,誰是正確的已經很明顯了。
98
Noam Brown
2月6日 02:21
GPT-5.3-Codex 的更高令牌效率 *和* 更快的推理是這次發布的最大亮點。@OpenAI 的團隊為了改善這一點付出了很多努力,未來只會變得更好。
Sam Altman
2月6日 02:14
GPT-5.3-Codex 現已推出! *最佳編碼性能(57% SWE-Bench Pro,76% TerminalBench 2.0,64% OSWorld)。 *任務中期的可引導性和任務期間的即時更新。 *更快!在相同任務中,使用的標記數量不到 5.2-Codex 的一半,且每個標記速度提升超過 25%! *良好的電腦使用。
148
熱門
排行
收藏