Le post-entraînement est une forme d'art. @christinahkim dit que façonner le comportement du modèle signifie sculpter le caractère. Chaque récompense est un compromis. GPT-5 a été un réinitialisation : équilibrer l'utilité avec l'honnêteté, la chaleur sans sycophantisme. L'assistant ne devrait pas simplement répondre. Il devrait être agréable à utiliser.
17,86K