Frisch vom Drucker: Die Illusion der abnehmenden Erträge: Messung der Langzeit-Ausführung in LLMs. Sind kleine Modelle die Zukunft der agentischen KI? Ist das Skalieren von LLM-Computern die Kosten nicht wert aufgrund abnehmender Erträge? Sind autoregressive LLMs zum Scheitern verurteilt, und ist Denken eine Illusion? Die Bärenargumente für das Skalieren von LLMs sind alle mit einer einzigen Fähigkeit verbunden: Langzeit-Ausführung. Das ist jedoch genau der Grund, warum Sie optimistisch hinsichtlich der Skalierung der Modellgröße und der Testzeit-Computing sein sollten! > Zuerst, erinnern Sie sich an das METR-Diagramm? Es könnte durch das Modell von @ylecun über kumulative Fehler erklärt werden. > Die Horizontlänge eines Modells wächst super-exponentiell (@DaveShapi) in der Genauigkeit bei einzelnen Schritten. > Fazit 1: Lassen Sie sich nicht von der langsamen Fortschritt auf typischen Kurzaufgaben-Benchmarks täuschen. > Das ist genug für exponentielles Wachstum in der Horizontlänge. Aber wir gehen über @ylecun's Modell hinaus und testen LLMs empirisch... > Nur die Ausführung ist auch für LLMs schwierig, selbst wenn Sie ihnen den benötigten Plan und das Wissen bereitstellen. > Wir sollten Ausführungsfehler nicht als Unfähigkeit zu "denken" missinterpretieren. > Selbst wenn ein kleines Modell eine 100%ige Genauigkeit bei einzelnen Schritten hat, können größere Modelle viel mehr Züge über einer Erfolgsquote-Schwelle ausführen. > Haben Sie bemerkt, dass Ihr Agent schlechter abschneidet, je länger die Aufgabe wird? Es sind nicht nur die Einschränkungen des langen Kontexts.. > Wir beobachten: Den Selbst-Konditionierungseffekt! > Wenn Modelle Fehler sehen, die sie früher in ihrer Geschichte gemacht haben, werden sie wahrscheinlicher in zukünftigen Zügen Fehler machen. > Eine Erhöhung der Modellgröße verschärft dieses Problem - ein seltener Fall von inverser Skalierung! Was ist also mit dem Denken...? > Denken ist keine Illusion. Es ist der Motor für die Ausführung! > Wo selbst DeepSeek v3, Kimi K2 nicht in der Lage sind, selbst 5 Züge latent auszuführen, wenn sie gebeten werden, ohne CoT auszuführen... > Mit CoT können sie 10x mehr tun. Was ist also mit der Grenze? ...