Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O novo Motif-2-12.7B (da Coréia do Sul) tem pontuações realmente impressionantes e eles cozinharam mais uma vez com a otimização de arquitetura / hardware.
Minha parte favorita é como eles usaram o Motif-2.6B anterior para inicializar o modelo maior, usando duas técnicas diferentes para dimensionar a profundidade e a largura do modelo, o que melhora a eficiência do token em comparação com o treinamento do zero. Eles também usam seu próprio trabalho para melhorar a atenção diferencial que usavam anteriormente, com uma variante agrupada para obter mais granularidade nas cabeças de ruído e sinal (mais sinal, menos intrometido).
Treinado apenas em tokens 5.5T, com um "agendamento de dados com reconhecimento de currículo" (não há muita informação sobre isso) + muitas otimizações de hardware diferentes (algumas delas são de código aberto, veja os links abaixo!) com Muon-Clip paralelo, kernels eficientes para Polynorm e treinamento FP8 usando torchtitan!
Eles também mencionam que o Muon permite tamanhos de lote maiores e escalam até 80M GBS, o que é bastante alto para um modelo desse tamanho.
400 GPUs H100 e ~ 272K horas de GPU é impressionante para obter esse nível de desempenho imo

Melhores
Classificação
Favoritos

