Gran trabajo de @JamesTamplin para ir más allá de las evaluaciones estándar para juzgar los modelos de IA. Es sorprendente ver cómo Gemini 2.5 Flash arrasa en esta simulación de Minecraft.
Kradleai
Kradleai9 sept, 02:53
Hola Mundo, estamos Evaluamos modelos de frontera poniéndolos en simulaciones. ¿Qué pasa cuando 6 modelos de frontera compiten en #Minecraft por GPUs? Video y 🧵
1,92K