Bra jobbat av @JamesTamplin för att gå bortom standardutvärderingar för att bedöma AI-modeller. Förvånande att se Gemini 2.5 Flash utplånas i denna minecraft-simulering.
Kradleai
Kradleai9 sep. 02:53
Hej världen, vi är Vi utvärderar gränsmodeller genom att sätta dem i simuleringar. Så vad händer när 6 frontier-modeller tävlar i #Minecraft om GPU:er? Video och 🧵
1,92K