Å bedømme OpenAIs suksess basert på Model Evals føles litt feil og litt som å bedømme tidlig Facebook basert på et mål som evaluerer effektiviteten til den sosiale grafen
5,31K