Menguji kekokohan skor @Havelock_AI dengan melakukan turnamen, di mana Claude hanya disajikan dengan penanda tata bahasa dan leksikal (tanpa isi) dari dua teks dan diminta untuk menebak mana yang lebih lisan. Kita akan melihat apakah teks dengan skor lebih tinggi benar-benar memiliki ELO yang lebih tinggi.
Batch uji pertama sebelum lari besar
35