Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A Alibaba lançou o Qwen3 Next 80B: um modelo híbrido de raciocínio com pesos abertos que alcança inteligência ao nível do DeepSeek V3.1 com apenas 3B de parâmetros ativos
Principais conclusões:
💡 Arquitetura inovadora: Primeiro modelo a introduzir os modelos de base ‘Qwen3-Next’ da @Alibaba_Qwen, com várias decisões arquitetónicas chave, como um mecanismo de atenção híbrido de Gated DeltaNet e Gated Attention, e alta esparsidade com uma participação de 3,8% de parâmetros ativos, em comparação com 9,4% para o Qwen3 235B
🧠 Inteligência: O Qwen3 Next 80B (Raciocínio) pontua 54 no Índice de Inteligência de Análise Artificial, colocado ao lado do DeepSeek V3.1 (Raciocínio). A variante não-raciocínio pontua 45, alinhada com o gpt-oss-20B e o Llama Nemotron Super 49B v1.5 (Raciocínio)
💲 Modelo de preços: O preço por token na @alibaba_cloud é de $0.5/$6 por 1M de tokens de entrada/saída para raciocínio e $0.5/$2 para a variante não-raciocínio. Isso compara com preços mais altos para o Qwen3 235B 2507 de $0.7/$8.4 com raciocínio e $0.7/$2.8 sem - uma redução de ≥25% dependendo das cargas de trabalho
⚙️ Detalhes do modelo: O modelo tem uma janela de contexto nativa de 256k tokens e é apenas texto, sem entradas ou saídas multimodais. Com apenas 80B de parâmetros em FP8, o modelo cabe em uma única GPU H200

Top
Classificação
Favoritos