Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Krypto współpiloty muszą być zdolne do rozumowania w zmieniających się rynkach. Oznacza to trudniejsze, oparte na produkcji standardy.
CryptoAnalystBench pomaga rozwijać rozumowanie dla otwartego AI, oceniając długie odpowiedzi dotyczące kryptowalut pod kątem istotności, istotności czasowej, głębokości i spójności danych 🧵

2/ Ten benchmark jest ważny, ponieważ rozumowanie zawodzi w szybko zmieniających się warunkach.
Większość ocen sprawdza, czy model potrafi pozyskiwać fakty. W kryptowalutach użytkownicy potrzebują spójnego stanowiska, gdy sygnały są sprzeczne, okna czasowe się zmieniają, a źródła się nie zgadzają. Jeśli nie mierzysz tej syntezy, dostarczasz współpilotów, którzy brzmią wiarygodnie, a potem dryfują, sprzeczają się i wprowadzają w błąd decyzje.
CryptoAnalystBench ocenia długie, analityczne odpowiedzi pod kątem trafności, głębokości, temporalnej trafności i spójności danych, dając zespołom powtarzalną bazę do iteracji i testów regresyjnych. Ujawnia również, gdzie agenci zawodzą w praktyce: przestarzałe ramy, płytką syntezę, wewnętrzne sprzeczności i nadmiernie pewne twierdzenia.
CryptoAnalystBench jest zaprojektowany, aby uzupełniać zestawy prawdy gruntowej, takie jak DMind i CryptoBench, z oddzielnymi kontrolami faktualności dla poprawności na poziomie twierdzeń.
3/ Zbudowaliśmy CryptoAnalystBench, destylując ruch produkcyjny w kompaktowy zbiór danych.
Zaczęliśmy od niedawnego wycinka zapytań Sentient Chat i usunęliśmy podpowiedzi, które były zbyt długie, aby je konsekwentnie ocenić, lub zbyt krótkie, aby odzwierciedlały rzeczywiste intencje.
Następnie pogrupowaliśmy resztę w około 2 000 grup intencji, zdefiniowaliśmy 11 kategorii i oznaczyliśmy każde zapytanie za pomocą AI, aby pokrycie pozostało zgodne z rzeczywistym zapotrzebowaniem użytkowników.
Stamtąd usunęliśmy prawie duplikaty w każdej kategorii, przycięliśmy „łatwe” podpowiedzi, na które modele mogą odpowiedzieć tylko na podstawie treningu, i ręcznie skurczaliśmy reprezentatywny ostateczny zrzut do oceny.
4/ Wybory projektowe naszego zestawu danych determinują, jakie błędy możesz znaleźć
Prawie duplikaty zawyżają wyniki bez poprawy pokrycia. Łatwe podpowiedzi ukrywają błędy narzędzi i syntezy.
Zaprojektowaliśmy CryptoAnalystBench, aby zachować różnorodność, zachować proporcje rzeczywistego ruchu i być odpornym na czas, aby wychwytywać dryf i regresje zamiast nagradzać zapamiętywanie.
5/ Pętla ewaluacyjna jest zbudowana dla powtarzalnej iteracji
Oceniamy każdą odpowiedź za pomocą sędziego LLM, korzystając z ustalonego rubryki i wyjść w formacie JSON, nie ujawniając, który system wygenerował którą odpowiedź.
Wybraliśmy DeepSeek v3.1 za pośrednictwem Fireworks po testach na stronniczość, a następnie kontrolowaliśmy wariancję poprzez zrównoważoną losowość kolejności odpowiedzi oraz wspólną rozmowę sędziów dla każdego zapytania, aby zredukować dryf kalibracji.
Wynik to to, czego zespoły deweloperskie potrzebują do iteracji: wyniki według wymiarów, rangi według zapytań oraz podziały kategorii do testów regresyjnych i ukierunkowanych poprawek. Wyraźnie wskazuje to również na ograniczenie, że wysoka jakość analityków może nadal ukrywać halucynowane liczby lub błędnie przypisane twierdzenia.
Kolejne kroki to utrzymanie benchmarku świeżym w regularnych odstępach oraz połączenie go z lokalizacją błędów opartą na śladach oraz kontrolami faktów ograniczonymi dowodami.
127
Najlepsze
Ranking
Ulubione
