حسب ما أرى، لا توجد أي معايير مرجعية للعبة Grok 4.2، أليس كذلك؟ كل موديل ما قبل الإصدار رأيته كان يحتوي على بعض الاختبارات على الأقل. حتى لو كانت معيبة (والمعايير معيبة)، فهي تساعدك على رؤية المهام التي قد يستحق النموذج التجربة من أجلها.