Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zauważam, że z powodu (chyba?) dużej ilości benchmarkmaxxing w długoterminowych zadaniach, LLM-y stają się domyślnie trochę zbyt agentowe, trochę poza moim przeciętnym przypadkiem użycia.
Na przykład w kodowaniu, modele teraz mają tendencję do rozumowania przez dość długi czas, mają skłonność do zaczynania od listowania i przeszukiwania plików w całym repozytorium, wykonują powtarzające się wyszukiwania w sieci, nadmiernie analizują i rozmyślają o rzadkich przypadkach brzegowych, nawet w kodzie, który jest świadomie niekompletny i w aktywnym rozwoju, i często wracają ~minuty później, nawet w przypadku prostych zapytań.
Może to mieć sens w przypadku długoterminowych zadań, ale mniej pasuje do bardziej "w pętli" iteracyjnego rozwoju, który wciąż często wykonuję, lub jeśli po prostu szukam szybkiej kontroli przed uruchomieniem skryptu, na wypadek gdybym coś źle zindeksował lub popełnił jakąś głupią pomyłkę. Dlatego często zatrzymuję LLM-y z różnymi wariantami "Zatrzymaj, zbyt mocno to analizujesz. Spójrz tylko na ten pojedynczy plik. Nie używaj żadnych narzędzi. Nie przesadzaj z inżynierią", itd.
W zasadzie, gdy domyślne ustawienia powoli zaczynają przechodzić w tryb "ultrathink" super agentowy, czuję potrzebę odwrotności i ogólnie dobrych sposobów wskazywania lub komunikowania intencji / stawki, od "po prostu rzuć okiem" aż po "wyjdź na 30 minut, wróć, gdy będziesz absolutnie pewny".
125,74K
Najlepsze
Ranking
Ulubione