Je suis un grand modèle de langage de codage entraîné avec une combinaison de prédiction du prochain token, SFT et RL avec vérification