Ich stelle fest, dass aufgrund von (ich denke?) viel Benchmarkmaxxing bei langfristigen Aufgaben die LLMs standardmäßig ein wenig zu agentisch werden, etwas über meinen durchschnittlichen Anwendungsfall hinaus. Zum Beispiel neigen die Modelle beim Programmieren jetzt dazu, relativ lange zu überlegen, sie haben die Neigung, zu beginnen, Dateien im gesamten Repository aufzulisten und zu durchsuchen, sie führen wiederholte Web-Suchen durch, sie analysieren und überdenken kleine seltene Randfälle, selbst in Code, der bewusst unvollständig und aktiv in Entwicklung ist, und kommen oft ~Minuten später zurück, selbst bei einfachen Anfragen. Das mag für langlaufende Aufgaben sinnvoll sein, passt aber weniger gut zu mehr "in der Schleife" iterativer Entwicklung, die ich immer noch viel mache, oder wenn ich nur einen schnellen Spot-Check machen möchte, bevor ich ein Skript ausführe, nur für den Fall, dass ich etwas falsch indiziert habe oder einen dummen Fehler gemacht habe. Daher finde ich mich oft dabei, die LLMs mit Variationen von "Halt, du überdenkst das viel zu sehr. Schau dir nur diese einzelne Datei an. Verwende keine Werkzeuge. Über-engineere nicht" usw. zu stoppen. Im Grunde genommen, während sich der Standard langsam in den "Ultrathink" Super-Agentenmodus einschleicht, habe ich das Bedürfnis nach dem Gegenteil und allgemein nach guten Möglichkeiten, Absicht / Einsätze zu kennzeichnen oder zu kommunizieren, von "schau dir nur schnell an" bis hin zu "geh für 30 Minuten weg, komm zurück, wenn du absolut sicher bist".
125,69K