在训练过程中强迫大型语言模型变得邪恶,可能会使它们在长远来看变得更友好。
6.63K