熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
GPT-5 剛剛發布。讓我們評估它在實現複雜 AGI 類能力方面的表現:
- @grok 4(思考)在 ARC-AGI-2(複雜推理)和 ARC-AGI-1(要求較低)測試中均超越 @OpenAI GPT-5(高)。
- Grok 4 的卓越準確性伴隨著每個任務的成本顯著提高,範圍從 2 美元到 4 美元不等。
- 輕量級的 GPT-5 變體(迷你/納米)在這些基準上提供了性能和成本之間的平衡折衷。
請注意,ARC-AGI-3 測試目前正在進行中,以上測試的結果並不意味著模型的優越性。
h/t @arcprize

1.19K
熱門
排行
收藏