O novo Motif-2-12.7B (da Coréia do Sul) tem pontuações realmente impressionantes e eles cozinharam mais uma vez com a otimização de arquitetura / hardware. Minha parte favorita é como eles usaram o Motif-2.6B anterior para inicializar o modelo maior, usando duas técnicas diferentes para dimensionar a profundidade e a largura do modelo, o que melhora a eficiência do token em comparação com o treinamento do zero. Eles também usam seu próprio trabalho para melhorar a atenção diferencial que usavam anteriormente, com uma variante agrupada para obter mais granularidade nas cabeças de ruído e sinal (mais sinal, menos intrometido). Treinado apenas em tokens 5.5T, com um "agendamento de dados com reconhecimento de currículo" (não há muita informação sobre isso) + muitas otimizações de hardware diferentes (algumas delas são de código aberto, veja os links abaixo!) com Muon-Clip paralelo, kernels eficientes para Polynorm e treinamento FP8 usando torchtitan! Eles também mencionam que o Muon permite tamanhos de lote maiores e escalam até 80M GBS, o que é bastante alto para um modelo desse tamanho. 400 GPUs H100 e ~ 272K horas de GPU é impressionante para obter esse nível de desempenho imo