Andrej Karpathy ondersteunt de introductie van een nieuwe term gerelateerd aan "context engineering" in de ontwikkeling van AI-software met behulp van LLM's. En deze term lijkt al lange tijd zeer noodzakelijk. Elke keer als ik mensen uitleg hoe we onze Nethermind AuditAgent ontwikkelen, is een van de belangrijkste aspecten, naast het gebruik van domeinexpertise (web3-beveiliging) en het gebruik van de beste beschikbare AI-modellen (van OpenAI, Anthropic en Google), en tools voor LLM, precies "context engineering". Er is soms een uitdrukking "context is koning," en dat is echt waar. LLM's, of ze nu enorme geavanceerde zijn of geoptimaliseerde kleine LLM's, zijn een krachtig hulpmiddel, maar zoals elk hulpmiddel, als het in de verkeerde handen is, krijg je veel minder veelbelovende resultaten dan je zou kunnen krijgen als je er correct mee werkt. En contextbeheer (of engineering) is inderdaad een complex en niet erg goed beschreven gebied dat voortdurend evolueert, en het is echt ontstaan als een uitbreiding van het concept van prompt engineering, dat al enkele negatieve connotaties heeft. Over het algemeen heeft Andrej de belangrijkste aspecten gerelateerd aan context engineering opgesomd (op de tweede screenshot), maar in elke specifieke taak behalen mensen uitstekende resultaten grotendeels door trial and error, elke keer monotoon proberen de juiste contextelementen te selecteren die echt nodig zijn in deze fase van probleemoplossing, benchmarks verzamelen voor elke fase, kijken naar metrics, datasets verdelen in test-, validatie- enzovoort, en ga zo maar door. Wat vind je van "context engineering"?
Andrej Karpathy
Andrej Karpathy25 jun 2025
+1 voor "context engineering" boven "prompt engineering". Mensen associëren prompts met korte taakbeschrijvingen die je een LLM zou geven in je dagelijkse gebruik. Terwijl in elke industriële LLM-app, context engineering de delicate kunst en wetenschap is van het vullen van het contextvenster met precies de juiste informatie voor de volgende stap. Wetenschap omdat het goed doen hiervan taakbeschrijvingen en uitleg, enkele voorbeelden, RAG, gerelateerde (mogelijk multimodale) gegevens, tools, staat en geschiedenis, compact maken... Te weinig of van de verkeerde vorm en de LLM heeft niet de juiste context voor optimale prestaties. Te veel of te irrelevant en de kosten van de LLM kunnen stijgen en de prestaties kunnen dalen. Dit goed doen is zeer niet-triviaal. En kunst vanwege de leidende intuïtie rond de LLM-psychologie van de geest van mensen. Bovenop de context engineering zelf, moet een LLM-app: - problemen precies goed opsplitsen in controleflows - de contextvensters precies goed inpakken - oproepen naar LLM's van het juiste soort en capaciteit dispatchen - generatie-verificatie UIUX-flows afhandelen - nog veel meer - veiligheidsmaatregelen, beveiliging, evaluaties, parallelisme, prefetching, ... Dus context engineering is slechts één klein onderdeel van een opkomende dikke laag van niet-triviale software die individuele LLM-oproepen (en veel meer) coördineert in volledige LLM-apps. De term "ChatGPT-wrapper" is moe en echt, echt verkeerd.
483