Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Możemy to rozwiązać poprzez ograniczone wykonanie.
Ogranicz długość wyjścia, jak limit 140 znaków na Twitterze.
Lub ogranicz czas wykonania, jak tryb rzeczywisty w systemie Linux.


10 sie, 00:53
Zauważam, że z powodu (chyba?) dużej ilości benchmarkmaxxing w długoterminowych zadaniach, LLM-y stają się domyślnie trochę zbyt agentowe, trochę poza moim przeciętnym przypadkiem użycia.
Na przykład w kodowaniu, modele teraz mają tendencję do rozumowania przez dość długi czas, mają skłonność do zaczynania od listowania i przeszukiwania plików w całym repozytorium, wykonują powtarzające się wyszukiwania w sieci, nadmiernie analizują i rozmyślają o rzadkich przypadkach brzegowych, nawet w kodzie, który jest świadomie niekompletny i w aktywnym rozwoju, i często wracają ~minuty później, nawet w przypadku prostych zapytań.
Może to mieć sens w przypadku długoterminowych zadań, ale mniej pasuje do bardziej "w pętli" iteracyjnego rozwoju, który wciąż często wykonuję, lub jeśli po prostu szukam szybkiej kontroli przed uruchomieniem skryptu, na wypadek gdybym coś źle zindeksował lub popełnił jakąś głupią pomyłkę. Dlatego często zatrzymuję LLM-y z różnymi wariantami "Zatrzymaj, zbyt mocno to analizujesz. Spójrz tylko na ten pojedynczy plik. Nie używaj żadnych narzędzi. Nie przesadzaj z inżynierią", itd.
W zasadzie, gdy domyślne ustawienia powoli zaczynają przechodzić w tryb "ultrathink" super agentowy, czuję potrzebę odwrotności i ogólnie dobrych sposobów wskazywania lub komunikowania intencji / stawki, od "po prostu rzuć okiem" aż po "wyjdź na 30 minut, wróć, gdy będziesz absolutnie pewny".
Nie musisz używać tych koncepcji dokładnie, ale pomysły z rozwoju systemów operacyjnych czasu rzeczywistego mogą być wprowadzone jako ograniczenia podczas szkolenia i oceny AI.
Miękki czas rzeczywisty może być wystarczający. Chyba że to wypadek samochodowy, jeśli to nie zadziała, jak w przypadku twardego czasu rzeczywistego.

104,52K
Najlepsze
Ranking
Ulubione