• 20 août : xAI dit que si un modèle est >50% sur MASK, cela déclenche son seuil de "perte de contrôle". • 26 août : Grok CF1 a obtenu 72% et xAI a dit qu'il ne pose pas de risque. Il semble que les deux soient vrais : MASK n'est pas un benchmark très effrayant et xAI devrait expliquer pourquoi ils ont changé d'avis au cours de la semaine.