Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jakub Pachocki
OpenAI
Minulý týden se naše modely uvažování zúčastnily mezinárodní soutěže v programování na vysoké škole (ICPC) 2025, přední světové soutěže v programování na univerzitní úrovni. Náš systém vyřešil všech 12 z 12 problémů, což je výkon, který by se umístil na prvním místě na světě (nejlepší lidský tým vyřešil 11 problémů).
Tento milník završuje intenzivní 2 měsíce soutěžních vystoupení našich modelek:
- Druhé místo ve světovém finále AtCoder Heuristics
- Zlatá medaile na Mezinárodní matematické olympiádě
- Zlatá medaile na Mezinárodní olympiádě v informatice
- A nyní zlatá medaile, první místo na světovém finále ICPC.
Věřím, že tyto výsledky, pocházející z rodiny modelů obecného uvažování zakořeněných v našem hlavním výzkumném programu, jsou možná nejjasnějším měřítkem pokroku v tomto roce. Tyto soutěže jsou skvělými samostatnými, časově ohraničenými testy schopnosti objevovat nové nápady. Ještě předtím, než naše modely začaly být zběhlé v jednoduché aritmetice, jsme na tyto soutěže pohlíželi jako na milníky pokroku směrem k transformativní umělé inteligenci.
Naše modely se nyní řadí mezi nejlepší lidi v těchto oblastech, když jsou jim položeny dobře specifikované otázky a jsou omezeny na ~5 hodin. Výzvou je nyní posun k otevřenějším problémům a mnohem delším časovým horizontům. Tato úroveň schopnosti uvažování, aplikovaná po měsíce a roky na problémy, na kterých skutečně záleží, je to, o co nám jde – automatizace vědeckých objevů.
Tento rychlý pokrok také podtrhuje význam výzkumu bezpečnosti a souladu. Stále potřebujeme lépe porozumět vlastnostem zarovnání dlouhodobých modelů uvažování; zejména doporučuji zhodnotit fascinující zjištění ze studie o intrikách v modelech uvažování, kterou jsme dnes zveřejnili (
Gratuluji svým kolegům z týmu, kteří vylili svá srdce do získání těchto soutěžních výsledků, a všem, kteří přispěli k základnímu základnímu výzkumu, který jim to umožňuje!

Mostafa RohaninejadPřed 23 h
1/n
Jsem opravdu nadšený, že se mohu podělit o to, že náš systém uvažování @OpenAI získal perfektní skóre 12/12 během světového finále ICPC 2025, přední vysokoškolské soutěže v programování, kde špičkové univerzitní týmy z celého světa řeší složité algoritmické problémy. To by ji umístilo na první místo mezi všemi lidskými účastníky. 🥇🥇

144
Jsem nesmírně nadšen potenciálem věrnosti a interpretovatelnosti myšlenkového řetězce. Výrazně ovlivnila design našich modelů uvažování, počínaje o1-preview.
Vzhledem k tomu, že systémy umělé inteligence vynakládají více výpočetních prostředků na práci, např. na dlouhodobých výzkumných problémech, je důležité, abychom měli nějaký způsob monitorování jejich interního procesu. Úžasnou vlastností skrytých CoT je, že i když začínají zakotveny v jazyce, který můžeme interpretovat, škálovatelná optimalizační procedura není nepřátelská vůči schopnosti pozorovatele ověřit záměr modelu - na rozdíl např. od přímého dohledu s modelem odměny.
Napětí je v tom, že pokud by CoT nebyly ve výchozím nastavení skryté a my bychom tento proces považovali za součást výstupu AI, existovala by velká motivace (a v některých případech nutnost) k tomu, abychom na něj uvalili dohled. Věřím, že zde můžeme pracovat na tom nejlepším z obou světů - trénovat naše modely tak, aby byly skvělé ve vysvětlování svého vnitřního uvažování, ale zároveň si stále zachovat schopnost ho občas ověřit.
Věrnost CoT je součástí širšího výzkumného směru, kterým je trénink interpretovatelnosti: stanovení cílů způsobem, který trénuje alespoň část systému, aby zůstal poctivý a monitorovatelný s měřítkem. Pokračujeme ve zvyšování našich investic do tohoto výzkumu v OpenAI.

Bowen Baker16. 7. 2025
Modern reasoning models think in plain English.
Monitoring their thoughts could be a powerful, yet fragile, tool for overseeing future AI systems.
I and researchers across many organizations think we should work to evaluate, preserve, and even improve CoT monitorability.

328
Top
Hodnocení
Oblíbené