5 Evolutionsstufen von KI-Agenten. In den letzten Jahren sind wir von einfachen LLMs → zu vollwertigen agentischen Systemen mit Denken, Gedächtnis und Werkzeugnutzung übergegangen. Hier ist eine schrittweise Aufschlüsselung. 1) Kleine Kontextfenster-LLMs - Eingabe: Text → LLM → Ausgabe: Text - Frühe transformerbasierte Chatbots. - Konnten nur kleine Eingabestücke (kurze Gespräche) verarbeiten. - Als ChatGPT herauskam, hatte es ein Kontextfenster von nur 4k Tokens. 2) Große Kontextfenster-LLMs - Eingabe: Große Texte/Dokumente → LLM → Ausgabe: Text - Modelle wie Claude/ChatGPT wurden auf die Verarbeitung von Tausenden von Tokens aufgerüstet. - Ermöglichte das Parsen größerer Dokumente und längerer Gespräche. 3) LLM + Werkzeugnutzung (RAG-Ära) - Eingabe: Text → LLM + Abruf/Werkzeug → Ausgabe: Text - Retrieval-Augmented Generation gab Zugang zu frischen + externen Daten. - Werkzeuge wie Such-APIs, Taschenrechner und Datenbanken verbesserten die LLM-Ausgaben. 4) Multimodale LLM + Werkzeugnutzung + Gedächtnis - Eingabe: Text + Bilder + andere Modalitäten → LLM + Werkzeug + Gedächtnis → Ausgabe: Multimodal - Agenten konnten mehrere Datentypen (Text, Bilder, Audio) verarbeiten. - Gedächtnis führte zu Persistenz über Interaktionen hinweg. 5) Agenten mit Denken & Gedächtnis - Eingabe: Multimodal → LLM → Entscheidung → Ausgabe: Multimodal - Ausgestattet mit: → Kurzzeit-, Langzeit- und episodischem Gedächtnis → Werkzeugaufruf (Suche, APIs, Aktionen) → Denken & ReAct-basiertes Entscheidungsfinden - Im Wesentlichen ist dies die Ära der KI-Agenten, in der wir heute leben. 👉 Überlasse ich dir: Wie denkst du, wird die nächste Stufe von hier aus aussehen?
29,16K