Ny forskning om 445 AI-riktmärken • 48 % håller inte med om vad de mäter • 39 % använder bekväma, inte korrekta, data • 16 % statistisk signifikans för testet Vi vet fortfarande inte hur vi ska mäta våra mest kraftfulla verktyg IMO behandla evals som sport, inte SAT Tävling > tester Tydliga regler - > resultat som är begripliga för människor