Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Zauważam, że z powodu (chyba?) dużej ilości benchmarkmaxxing w długoterminowych zadaniach, LLM-y stają się domyślnie trochę zbyt agentowe, trochę poza moim przeciętnym przypadkiem użycia. Na przykład w kodowaniu, modele teraz mają tendencję do rozumowania przez dość długi czas, mają skłonność do zaczynania od listowania i przeszukiwania plików w całym repozytorium, wykonują powtarzające się wyszukiwania w sieci, nadmiernie analizują i rozmyślają o rzadkich przypadkach brzegowych, nawet w kodzie, który jest świadomie niekompletny i w aktywnym rozwoju, i często wracają ~minuty później, nawet w przypadku prostych zapytań. Może to mieć sens w przypadku długoterminowych zadań, ale mniej pasuje do bardziej "w pętli" iteracyjnego rozwoju, który wciąż często wykonuję, lub jeśli po prostu szukam szybkiej kontroli przed uruchomieniem skryptu, na wypadek gdybym coś źle zindeksował lub popełnił jakąś głupią pomyłkę. Dlatego często zatrzymuję LLM-y z różnymi wariantami "Zatrzymaj, zbyt mocno to analizujesz. Spójrz tylko na ten pojedynczy plik. Nie używaj żadnych narzędzi. Nie przesadzaj z inżynierią", itd. W zasadzie, gdy domyślne ustawienia powoli zaczynają przechodzić w tryb "ultrathink" super agentowy, czuję potrzebę odwrotności i ogólnie dobrych sposobów wskazywania lub komunikowania intencji / stawki, od "po prostu rzuć okiem" aż po "wyjdź na 30 minut, wróć, gdy będziesz absolutnie pewny".

125,74K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi