PANews raportoi 26. syyskuuta, että OpenAI lanseerasi uuden arviointityökalun, GDPvalin, joka keskittyy mittaamaan tekoälyn suorituskykyä todellisissa taloudellisen arvon tehtävissä. GDPval kattaa 44 ammattia yhdeksässä suurimmassa Yhdysvaltain BKT:n tekijässä, ja tehtävät ovat suunnitelleet alan asiantuntijat, joilla on keskimäärin 14 vuoden kokemus. Arviointitulokset osoittavat, että lähes puolet Claude Opus 4.1 -mallin tuotoksista on verrattavissa tai parempaa kuin asiantuntijoiden. OpenAI sanoi jatkavansa GDPVAL-arvioinnin laajuuden ja yksityiskohtien laajentamista tulevaisuudessa.