W zeszłym tygodniu nasze modele rozumowania wzięły udział w Międzynarodowym Konkursie Programowania dla Studentów (ICPC) 2025, premierowym konkursie programistycznym na poziomie uniwersyteckim na świecie. Nasz system rozwiązał wszystkie 12 z 12 problemów, co dałoby pierwsze miejsce na świecie (najlepszy zespół ludzki rozwiązał 11 problemów). Ten kamień milowy kończy intensywne 2 miesiące występów naszych modeli w konkursach: - Drugie miejsce w AtCoder Heuristics World Finals - Złoty medal na Międzynarodowej Olimpiadzie Matematycznej - Złoty medal na Międzynarodowej Olimpiadzie Informatycznej - A teraz, złoty medal, pierwsze miejsce na ICPC World Finals. Uważam, że te wyniki, pochodzące z rodziny ogólnych modeli rozumowania zakorzenionych w naszym głównym programie badawczym, są być może najjaśniejszym wskaźnikiem postępu w tym roku. Te konkursy są doskonałymi, zamkniętymi testami czasowymi dla zdolności odkrywania nowych pomysłów. Nawet zanim nasze modele stały się biegłe w prostej arytmetyce, patrzyliśmy na te konkursy jako na kamienie milowe postępu w kierunku transformacyjnej sztucznej inteligencji. Nasze modele teraz plasują się wśród najlepszych ludzi w tych dziedzinach, gdy są stawiane przed dobrze określonymi pytaniami i ograniczone do ~5 godzin. Teraz wyzwaniem jest przejście do bardziej otwartych problemów i znacznie dłuższych horyzontów czasowych. Ten poziom zdolności rozumowania, stosowany przez miesiące i lata do problemów, które naprawdę mają znaczenie, jest tym, czego szukamy - automatyzacja odkryć naukowych. Ten szybki postęp podkreśla również znaczenie badań nad bezpieczeństwem i dostosowaniem. Wciąż potrzebujemy większego zrozumienia właściwości dostosowania długoterminowych modeli rozumowania; w szczególności polecam zapoznanie się z fascynującymi odkryciami z badania intryg w modelach rozumowania, które opublikowaliśmy dzisiaj ( Gratulacje dla moich współpracowników, którzy włożyli całe serce w uzyskanie tych wyników w konkursach oraz dla wszystkich, którzy przyczyniają się do podstawowych badań, które je umożliwiają!