Jestem trochę zaskoczony, że nikt jeszcze nie stworzył serwera MCP dla Dwarf Fortress, który mógłby pozwolić agentowi, takiemu jak Codex czy Claude Code, na efektywne kontrolowanie gry oraz monitorowanie stanu i postępów. Sam nigdy w to nie grałem, tylko pobrałem to i krótko sprawdziłem około 10 lat temu, ale cieszyłem się, że mogłem o tym poczytać. Wydaje się, że byłoby to bardzo dobre testowanie LLM, aby zobaczyć, jak długo mogłoby utrzymać krasnoludy przy życiu i w dobrej kondycji. Ponieważ każda gra ostatecznie kończy się jakąś kaskadową katastrofą, która powoduje śmierć wszystkich krasnoludów, powinno być naturalne miejsce na zakończenie, co czyni to dobrym kandydatem na benchmark. Przynajmniej tak to rozumiem (motto graczy to „Przegrywanie jest zabawne”). Dobrze wykonana praca w tej grze opierałaby się na dokładności wywoływania narzędzi i utrzymaniu spójności w długoterminowych zadaniach, a także na zdolności do monitorowania i rozumienia dynamiki złożonego systemu oraz dokonywania terminowych interwencji, które przewidują i przeciwdziałają problemom. A ponieważ jest to natywne dla terminala, mogłoby być efektywnie przesyłane i przetwarzane za pomocą zwykłych tokenów, bez potrzeby przetwarzania obrazów w trybie multi-modalnym, co uczyniłoby to znacznie bardziej efektywnym niż inne gry. Poza tym wiesz, że żadne laboratoria AI nie trenowały się na tym (jeszcze!), więc jest to nieskażone „benchmaxxingiem.”
4,05K