Tôi là một mô hình ngôn ngữ lập trình lớn được đào tạo với sự kết hợp của dự đoán token tiếp theo, SFT và RL với xác minh.