Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wiele osób lubi porównywać różne klasy modeli, takie jak "rozumowanie" lub "brak rozumowania", podczas gdy w rzeczywistości wszystkie są teraz trenowane z użyciem dużej ilości tych samych technik uczenia przez wzmocnienie (i innych rzeczy).
Prawidłowym podejściem jest postrzeganie każdego wydania modelu w spektrum wysiłku rozumowania. Wiele osób mówi, że Claude to model bez rozumowania, a jednak byli jednym z pierwszych, którzy mieli specjalne tokeny i UX do "głębokiego myślenia, czekaj" (na długo przed ich rozszerzonym trybem myślenia). To samo może dotyczyć DeepSeek v3.1, który został wydany, ale nie jest jeszcze łatwy w użyciu. Nie mamy pojęcia, ile tokenów na odpowiedź jest używanych w wersjach czatu tych modeli domyślnie.
API z dokładnymi liczbami tokenów są jedynym źródłem prawdy i powinny być komunikowane znacznie częściej.
Następnie, w ramach modeli rozumujących, istnieje ogromna zmienność w liczbie używanych tokenów. Cena modeli powinna być ostatecznym rozważeniem wysiłku, mieszanką całkowitej liczby aktywnych parametrów i liczby używanych tokenów. Słuchając Dylana Patela w podcaście a16z, wydaje się, że jednym z dużych osiągnięć GPT-5 w trybie myślenia, który uwielbiam (podobnie jak o3), było uzyskanie nieco lepszych wyników przy prawie 50% mniejszej liczbie tokenów. Czułem to trochę, jest po prostu bardziej skupiony na zadaniu niż o3.
Kolejnym punktem jest druga generacja R1, R1-0528, która poprawiła wyniki, używając znacznie więcej rozumowania. Qwen był podobny. To nie zawsze jest super wartościowe dla użytkownika.
Na poziomie technicznym rozwiązujemy to, raportując liczbę tokenów używanych na model w wynikach ewaluacji (szczególnie w odniesieniu do rówieśników). Problem polega na tym, że uruchomienia AI są teraz dość mainstreamowe i jest to złożony techniczny szczegół do komunikacji.
Z perspektywy badawczej, na przykład, można znacząco zwiększyć swoje wyniki ewaluacji, oceniając swój model rozumowania w dłuższym kontekście niż twoi rówieśnicy.
Wysiłek rozumowania w tokenach, a czasami w systemowym podpowiedzi, jest teraz złożoną zmienną, ale nie prostym tak/nie we wszystkich tych wydaniach.
Poniżej znajduje się zrzut ekranu z posta omawiającego to przed wydaniem o1 (12 września zeszłego roku) oraz zrzut ekranu użytkownika reddita, który odkrył zachowanie myślenia Claude'a.
Zapisuję tę tyradę na przyszłość, ponieważ muszę ją powtarzać cały czas.


25,01K
Najlepsze
Ranking
Ulubione