GPT-5 har precis släppts. Låt oss utvärdera dess prestanda när det gäller att uppnå komplexa AGI-liknande funktioner: - @grok 4 (tänkande) överträffar @OpenAI GPT-5 (hög) i både ARC-AGI-2 (komplext resonemang) och ARC-AGI-1 (mindre krävande) tester. - Grok 4:s överlägsna noggrannhet kommer med betydligt högre kostnader per uppgift, från $2 till $4. - Lättare GPT-5-varianter (mini/nano) ger en balanserad avvägning mellan prestanda och kostnad på dessa riktmärken. Observera att ARC-AGI-3-testet för närvarande pågår och att resultaten av ovanstående tester inte innebär att modellen är överlägsen. h/t @arcprize
1,29K