據我所知,Grok 4.2 根本沒有任何基準測試,是這樣嗎? 我見過的其他所有預發布模型至少都有一些基準測試。即使它們有缺陷(而且基準測試確實有缺陷),它們也能幫助你了解這個模型可能值得嘗試的任務。