基准测试这个,基准测试那个,为什么不训练模型来改善人类状况呢