Tabela muito interessante do Deepseek v3.2 que compara a contagem de tokens de saída em diferentes benchmarks, a versão DSV3.2 Speciale pensa muito mais do que qualquer outro modelo, MAS como eles usam Scarse Attention, o custo de inferência ainda será ok?
A Mistral parece estar prestes a lançar 2 novos modelos: Ministral 3 e Mistral Large 3.
Em termos de arquitetura, parece ser:
> exatamente igual ao llama2/3 para a Ministral, que é muito parecida (mesmo que adicionem a SWA) ao primeiro lançamento do Mistral 7B há 2 anos.
> exatamente a mesma arquitetura do DeepSeek V3 para o grande (que parece ser um MoE)
para ambos, eles também usam escalonamento de corda llama4 (em vez de fio), e para o Grande parecem implementar decodificação especulativa com águia
Link para PRS no tópico
Mano, este é um artigo da feira de 2024, o Llama 2/3 foi desenvolvido pela Genai (não é o mesmo cluster, código base,...), eles são transparentes sobre MFU/throughput, diferente de outros modelos de treinamento laboratorial nessa escala, e há números reais no artigo do Llama 3.