Att testa robustheten i @Havelock_AI poäng genom att hålla en turnering, där Claude bara presenteras för de grammatiska och lexikala markörerna (inget innehåll) från två texter och ombeds gissa vilken som är mest muntlig. Vi får se om texter med högre poäng faktiskt har högre ELOs.
Första testbatchen innan den stora körningen
15