Pekerjaan hebat oleh @JamesTamplin untuk bergerak melampaui eval standar untuk menilai model AI. Mengejutkan melihat Gemini 2.5 Flash melenyapkan pada simulasi minecraft ini.
Kradleai
Kradleai9 Sep, 02.53
Halo Dunia, kami Kami mengevaluasi model perbatasan dengan memasukkannya ke dalam simulasi. Jadi apa yang terjadi ketika 6 model perbatasan bersaing dalam #Minecraft untuk GPU? Video dan 🧵
1,92K