Andrej Karpathy supporta l'introduzione di un nuovo termine relativo all'"ingegneria del contesto" nello sviluppo di software AI utilizzando LLM. E questo termine è sembrato a lungo molto necessario. Ogni volta che spiego alle persone come sviluppiamo il nostro Nethermind AuditAgent, uno degli aspetti chiave, oltre all'uso di competenze di dominio (sicurezza web3) e all'utilizzo dei migliori modelli AI disponibili (da OpenAI, Anthropic e Google), e strumenti per LLM, è proprio l'"ingegneria del contesto". A volte c'è un'espressione "il contesto è re", e questo è davvero vero. Gli LLM, siano essi enormi avanzati o piccoli LLM ottimizzati, sono uno strumento potente, ma come qualsiasi strumento, se è nelle mani sbagliate, otterrai risultati molto meno promettenti di quanto potresti se lavorassi con loro correttamente. E la gestione (o ingegneria) del contesto è davvero un'area complessa e non molto ben descritta che è in continua evoluzione, e che è emersa davvero come un'estensione del concetto di ingegneria dei prompt, che già ha alcune connotazioni negative. In generale, Andrej ha elencato i principali aspetti legati all'ingegneria del contesto (nella seconda schermata), ma in ogni compito specifico, le persone ottengono risultati eccellenti in gran parte attraverso tentativi ed errori, cercando ogni volta monotonicamente di selezionare gli elementi di contesto giusti che sono davvero necessari in questa fase della risoluzione dei problemi, raccogliendo benchmark per ogni fase, guardando le metriche, dividendo i dataset in test, validazione, e così via. Cosa ne pensi dell'"ingegneria del contesto"?
Andrej Karpathy
Andrej Karpathy25 giu 2025
+1 per "ingegneria del contesto" rispetto a "ingegneria dei prompt". Le persone associano i prompt a brevi descrizioni di compiti che daresti a un LLM nel tuo utilizzo quotidiano. Quando in ogni applicazione LLM di livello industriale, l'ingegneria del contesto è l'arte e la scienza delicate di riempire la finestra di contesto con le informazioni giuste per il passo successivo. Scienza perché farlo bene implica descrizioni di compiti e spiegazioni, esempi a pochi colpi, RAG, dati correlati (possibilmente multimodali), strumenti, stato e storia, compattazione... Troppo poco o nella forma sbagliata e l'LLM non ha il contesto giusto per una performance ottimale. Troppo o troppo irrilevante e i costi dell'LLM potrebbero aumentare e le performance potrebbero diminuire. Farlo bene è altamente non banale. E arte a causa dell'intuizione guida attorno alla psicologia degli LLM e degli spiriti delle persone. Oltre all'ingegneria del contesto stessa, un'app LLM deve: - suddividere i problemi nel modo giusto in flussi di controllo - riempire le finestre di contesto nel modo giusto - inviare chiamate agli LLM del tipo e della capacità giusti - gestire i flussi UIUX di generazione-verifica - molto altro - guardrail, sicurezza, valutazioni, parallelismo, prefetching, ... Quindi l'ingegneria del contesto è solo un piccolo pezzo di uno strato emergente spesso di software non banale che coordina le singole chiamate LLM (e molto altro) in app LLM complete. Il termine "wrapper di ChatGPT" è stanco e davvero, davvero sbagliato.
494