Posuzovat úspěch OpenAI na základě hodnocení modelu Evals mi připadá trochu mimo mísu a je to něco jako posuzovat raný Facebook na základě nějakého měřítka, které hodnotí efektivitu jeho sociálního grafu
5,31K