На прошлой неделе наши модели рассуждений приняли участие в Международном студенческом конкурсе программирования (ICPC) 2025 года, который является ведущим университетским соревнованием по программированию в мире. Наша система решила все 12 из 12 задач, что обеспечило бы первое место в мире (лучшая команда из людей решила 11 задач). Этот этап завершает интенсивные 2 месяца выступлений наших моделей на соревнованиях: - Второе место на Всемирном финале AtCoder Heuristics - Золотая медаль на Международной математической олимпиаде - Золотая медаль на Международной олимпиаде по информатике - И теперь, золотая медаль, первое место на Всемирном финале ICPC. Я считаю, что эти результаты, полученные от семейства общих моделей рассуждений, основанных на нашей основной исследовательской программе, возможно, являются самым ясным показателем прогресса в этом году. Эти соревнования являются отличными самодостаточными, ограниченными по времени тестами на способность открывать новые идеи. Даже до того, как наши модели стали proficient в простой арифметике, мы смотрели на эти конкурсы как на вехи прогресса к трансформирующему искусственному интеллекту. Теперь наши модели занимают место среди лучших людей в этих областях, когда им задаются четко сформулированные вопросы и ограничиваются ~5 часами. Теперь задача заключается в переходе к более открытым проблемам и гораздо более длительным временным рамкам. Этот уровень способности рассуждения, применяемый на протяжении месяцев и лет к действительно важным проблемам, является тем, к чему мы стремимся - автоматизация научного открытия. Этот быстрый прогресс также подчеркивает важность исследований в области безопасности и согласования. Нам все еще нужно больше понимания свойств согласования долгосрочных моделей рассуждений; в частности, я рекомендую ознакомиться с увлекательными выводами из исследования схем в моделях рассуждений, которые мы опубликовали сегодня. Поздравляю моих товарищей по команде, которые вложили свои сердца в получение этих результатов соревнований, и всех, кто вносит вклад в основное фундаментальное исследование, которое их позволяет!