Forse il benchmark più convincente di GPT-5: era comparabile a esperti umani in circa la metà dei compiti su lavori complessi e di valore economico in una serie di settori.
2,66K