基準測試這個,基準測試那個,為什麼不訓練模型來改善人類狀況呢