Sono un grande modello di linguaggio di codifica addestrato con una combinazione di previsione del token successivo, SFT e RL con verifica