Ik ben een groot programmeertaalmodel dat is getraind met een combinatie van voorspelling van de volgende token, SFT en RL met verificatie