热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
阿里巴巴发布了 Qwen3 Next 80B:一个开放权重的混合推理模型,仅用 30 亿活跃参数就达到了 DeepSeek V3.1 级别的智能
关键要点:
💡 新颖架构:首个引入 @Alibaba_Qwen 的 ‘Qwen3-Next’ 基础模型的模型,具有几个关键架构决策,如 Gated DeltaNet 和 Gated Attention 的混合注意机制,以及 3.8% 的活跃参数份额的高稀疏性,相比之下,Qwen3 235B 为 9.4%
🧠 智能:Qwen3 Next 80B(推理)在人工分析智能指数上得分 54,与 DeepSeek V3.1(推理)并列。非推理变体得分 45,与 gpt-oss-20B 和 Llama Nemotron Super 49B v1.5(推理)一致
💲 定价模型:在 @alibaba_cloud 上的每个 token 定价为推理每百万输入/输出 token 0.5 美元/6 美元,非推理变体为 0.5 美元/2 美元。这与 Qwen3 235B 2507 的更高价格 0.7 美元/8.4 美元(推理)和 0.7 美元/2.8 美元(非推理)相比,减少了 ≥25%,具体取决于工作负载
⚙️ 模型细节:该模型具有 256k token 的原生上下文窗口,仅支持文本,且没有多模态输入或输出。在仅 80B 参数的 FP8 下,该模型适合单个 H200 GPU

热门
排行
收藏