Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jakub Pachocki
Åpen AI
Forrige uke deltok resonnementmodellene våre i 2025 International Collegiate Programming Contest (ICPC), verdens fremste programmeringskonkurranse på universitetsnivå. Systemet vårt løste alle 12 av 12 problemer, en prestasjon som ville ha plassert seg først i verden (det beste menneskelige teamet løste 11 problemer).
Denne milepælen avrunder en intens 2 måneder med konkurranseprestasjoner av modellene våre:
- En andreplass i AtCoder Heuristics World Finals
- Gullmedalje i den internasjonale matematikkolympiaden
- Gullmedalje i den internasjonale olympiaden i informatikk
- Og nå, en gullmedalje, førsteplass i ICPC World Finals.
Jeg tror disse resultatene, som kommer fra en familie av generelle resonneringsmodeller forankret i vårt hovedforskningsprogram, kanskje er den klareste målestokken for fremgang i år. Disse konkurransene er flotte selvstendige, tidsboksede tester for evnen til å oppdage nye ideer. Selv før modellene våre var dyktige i enkel aritmetikk, så vi på disse konkurransene som milepæler for fremgang mot transformativ kunstig intelligens.
Modellene våre rangerer nå blant de beste menneskene i disse domenene, når de stilles med godt spesifiserte spørsmål og begrenset til ~5 timer. Utfordringen nå går over til mer åpne problemer, og mye lengre tidshorisonter. Dette nivået av resonneringsevne, brukt over måneder og år på problemer som virkelig betyr noe, er det vi er ute etter - automatisering av vitenskapelige oppdagelser.
Denne raske fremgangen understreker også viktigheten av forskning på sikkerhet og justering. Vi trenger fortsatt mer forståelse av justeringsegenskapene til langvarige resonneringsmodeller; spesielt anbefaler jeg å gjennomgå de fascinerende funnene fra studiet av intriger i resonneringsmodeller som vi publiserte i dag (
Gratulerer til lagkameratene mine som la ned hjertet sitt for å få disse konkurranseresultatene, og til alle som bidrar til den underliggende grunnleggende forskningen som gjør dem mulig!

Mostafa Rohaninejad18. sep., 01:06
1/n
Jeg er veldig glad for å dele at vårt @OpenAI resonneringssystem fikk en perfekt poengsum på 12/12 under 2025 ICPC World Finals, den fremste kollegiale programmeringskonkurransen der toppuniversitetslag fra hele verden løser komplekse algoritmiske problemer. Dette ville ha plassert den først blant alle menneskelige deltakere. 🥇🥇

148
Jeg er ekstremt begeistret for potensialet i tankekjedetrofasthet og tolkbarhet. Det har betydelig påvirket utformingen av resonneringsmodellene våre, og starter med o1-forhåndsvisning.
Ettersom AI-systemer bruker mer databehandling, for eksempel på langsiktige forskningsproblemer, er det avgjørende at vi har en måte å overvåke deres interne prosess på. Den fantastiske egenskapen til skjulte CoT-er er at selv om de starter forankret i språk vi kan tolke, er den skalerbare optimaliseringsprosedyren ikke i strid med observatørens evne til å verifisere modellens intensjon - i motsetning til for eksempel direkte tilsyn med en belønningsmodell.
Spenningen her er at hvis CoT-ene ikke var skjult som standard, og vi ser på prosessen som en del av AIs utdata, er det mye insentiv (og i noen tilfeller nødvendighet) til å sette tilsyn på den. Jeg tror vi kan jobbe mot det beste fra begge verdener her - trene modellene våre til å være gode til å forklare deres interne resonnement, men samtidig beholde evnen til å verifisere det av og til.
CoT-trofasthet er en del av en bredere forskningsretning, som er trening for tolkbarhet: å sette mål på en måte som trener i det minste deler av systemet til å forbli ærlig og overvåkelig med skala. Vi fortsetter å øke investeringene våre i denne forskningen ved OpenAI.

Bowen Baker16. juli 2025
Modern reasoning models think in plain English.
Monitoring their thoughts could be a powerful, yet fragile, tool for overseeing future AI systems.
I and researchers across many organizations think we should work to evaluate, preserve, and even improve CoT monitorability.

332
Topp
Rangering
Favoritter