DApp Store | Hub da Web3 para eventos e jogos

O que posso fazer em Descobrir?

Tópicos em alta

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

elie

Tabela muito interessante do Deepseek v3.2 que compara a contagem de tokens de saída em diferentes benchmarks, a versão DSV3.2 Speciale pensa muito mais do que qualquer outro modelo, MAS como eles usam Scarse Attention, o custo de inferência ainda será ok?

26,71K

elie1 de dez., 17:38

A Mistral parece estar prestes a lançar 2 novos modelos: Ministral 3 e Mistral Large 3. Em termos de arquitetura, parece ser: > exatamente igual ao llama2/3 para a Ministral, que é muito parecida (mesmo que adicionem a SWA) ao primeiro lançamento do Mistral 7B há 2 anos. > exatamente a mesma arquitetura do DeepSeek V3 para o grande (que parece ser um MoE) para ambos, eles também usam escalonamento de corda llama4 (em vez de fio), e para o Grande parecem implementar decodificação especulativa com águia Link para PRS no tópico

136,47K

elie1 de dez., 06:06

Mano, este é um artigo da feira de 2024, o Llama 2/3 foi desenvolvido pela Genai (não é o mesmo cluster, código base,...), eles são transparentes sobre MFU/throughput, diferente de outros modelos de treinamento laboratorial nessa escala, e há números reais no artigo do Llama 3.

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)1 de dez., 03:35

> Meta Oof @suchenzang não estava brincando Eles realmente não conseguem escalar pré-trens

18,49K

Melhores

Classificação

Favoritos