.@christinahkim zegt dat de grens niet meer benchmarks zijn. Het is gebruik. Eval-scores zijn verzadigd, maar het dagelijks leven niet. Het echte signaal van vooruitgang is hoeveel mensen AI gebruiken om echte dingen gedaan te krijgen. Dat is hoe we zullen weten dat we de AGI naderen.
31,81K