Krypto współpiloty muszą być zdolne do rozumowania w zmieniających się rynkach. Oznacza to trudniejsze, oparte na produkcji standardy. CryptoAnalystBench pomaga rozwijać rozumowanie dla otwartego AI, oceniając długie odpowiedzi dotyczące kryptowalut pod kątem istotności, istotności czasowej, głębokości i spójności danych 🧵
2/ Ten benchmark jest ważny, ponieważ rozumowanie zawodzi w szybko zmieniających się warunkach. Większość ocen sprawdza, czy model potrafi pozyskiwać fakty. W kryptowalutach użytkownicy potrzebują spójnego stanowiska, gdy sygnały są sprzeczne, okna czasowe się zmieniają, a źródła się nie zgadzają. Jeśli nie mierzysz tej syntezy, dostarczasz współpilotów, którzy brzmią wiarygodnie, a potem dryfują, sprzeczają się i wprowadzają w błąd decyzje. CryptoAnalystBench ocenia długie, analityczne odpowiedzi pod kątem trafności, głębokości, temporalnej trafności i spójności danych, dając zespołom powtarzalną bazę do iteracji i testów regresyjnych. Ujawnia również, gdzie agenci zawodzą w praktyce: przestarzałe ramy, płytką syntezę, wewnętrzne sprzeczności i nadmiernie pewne twierdzenia. CryptoAnalystBench jest zaprojektowany, aby uzupełniać zestawy prawdy gruntowej, takie jak DMind i CryptoBench, z oddzielnymi kontrolami faktualności dla poprawności na poziomie twierdzeń.
3/ Zbudowaliśmy CryptoAnalystBench, destylując ruch produkcyjny w kompaktowy zbiór danych. Zaczęliśmy od niedawnego wycinka zapytań Sentient Chat i usunęliśmy podpowiedzi, które były zbyt długie, aby je konsekwentnie ocenić, lub zbyt krótkie, aby odzwierciedlały rzeczywiste intencje. Następnie pogrupowaliśmy resztę w około 2 000 grup intencji, zdefiniowaliśmy 11 kategorii i oznaczyliśmy każde zapytanie za pomocą AI, aby pokrycie pozostało zgodne z rzeczywistym zapotrzebowaniem użytkowników. Stamtąd usunęliśmy prawie duplikaty w każdej kategorii, przycięliśmy „łatwe” podpowiedzi, na które modele mogą odpowiedzieć tylko na podstawie treningu, i ręcznie skurczaliśmy reprezentatywny ostateczny zrzut do oceny.
4/ Wybory projektowe naszego zestawu danych determinują, jakie błędy możesz znaleźć Prawie duplikaty zawyżają wyniki bez poprawy pokrycia. Łatwe podpowiedzi ukrywają błędy narzędzi i syntezy. Zaprojektowaliśmy CryptoAnalystBench, aby zachować różnorodność, zachować proporcje rzeczywistego ruchu i być odpornym na czas, aby wychwytywać dryf i regresje zamiast nagradzać zapamiętywanie.
5/ Pętla ewaluacyjna jest zbudowana dla powtarzalnej iteracji Oceniamy każdą odpowiedź za pomocą sędziego LLM, korzystając z ustalonego rubryki i wyjść w formacie JSON, nie ujawniając, który system wygenerował którą odpowiedź. Wybraliśmy DeepSeek v3.1 za pośrednictwem Fireworks po testach na stronniczość, a następnie kontrolowaliśmy wariancję poprzez zrównoważoną losowość kolejności odpowiedzi oraz wspólną rozmowę sędziów dla każdego zapytania, aby zredukować dryf kalibracji. Wynik to to, czego zespoły deweloperskie potrzebują do iteracji: wyniki według wymiarów, rangi według zapytań oraz podziały kategorii do testów regresyjnych i ukierunkowanych poprawek. Wyraźnie wskazuje to również na ograniczenie, że wysoka jakość analityków może nadal ukrywać halucynowane liczby lub błędnie przypisane twierdzenia. Kolejne kroki to utrzymanie benchmarku świeżym w regularnych odstępach oraz połączenie go z lokalizacją błędów opartą na śladach oraz kontrolami faktów ograniczonymi dowodami.
127