eles construíram o GLM-5 sem depender de grandes clusters NVIDIA, mas principalmente em hardware doméstico chinês, que é menos maduro como ecossistema e, curiosamente, eles foram muito inteligentes aqui com otimizações sobre quantização, kernels, escalonamento assíncrono, paralelismo etc.