Sejauh yang saya tahu, tidak ada tolok ukur sama sekali untuk Grok 4.2, bukan? Setiap model pra-rilis lain yang saya lihat setidaknya memiliki beberapa tolok ukur. Bahkan jika mereka cacat (dan tolok ukur cacat), mereka membantu Anda melihat tugas-tugas yang model mungkin layak untuk dicoba.