Testowanie odporności wyników @Havelock_AI poprzez przeprowadzenie turnieju, w którym Claude zostanie jedynie zaprezentowany z gramatycznymi i leksykalnymi znacznikami (bez treści) dwóch tekstów i poproszony o zgadnięcie, który z nich jest bardziej ustny. Zobaczymy, czy teksty z wyższymi wynikami rzeczywiście mają wyższe ELO.
Pierwsza partia testowa przed wielkim uruchomieniem
42