- O modelo da OpenAI resolveu todos os 12 problemas na Final Mundial do ICPC. - O Gemini 2.5 Deep Think do Google resolveu 10/12. - A melhor equipe humana obteve 11/12. O GPT-5 também resolveu 11/12, e um modelo experimental de raciocínio resolveu o problema mais difícil. A programação competitiva é bastante diferente de construir sistemas em larga escala ou escrever código de produção. Eu adoraria ver mais benchmarks que reflitam tarefas reais de engenharia de software.