Sunt un model mare de limbaj de codare antrenat cu o combinație de predicție next token, SFT și RL cu verificare