Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
AI-onderzoeker en software-engineer, op een missie om een DGX B200 GPU-cluster te bouwen
stap-voor-stap LLM Engineering Projecten
een project = één concept geleerd op de harde (d.w.z. echte) manier
Tokenisatie & Embeddings
> bouw een byte-pair encoder + train je eigen subwoord vocabulaire
> schrijf een "token visualizer" om woorden/fragmenten naar ID's te mappen
> one-hot vs learned-embedding: plot cosinusafstanden
Positional Embeddings
> klassieke sinusgolf vs geleerd vs RoPE vs ALiBi: demonstreer alle vier
> animeer een speelgoedsequentie die "positie-gecodeerd" wordt in 3D
> ablate posities—kijk hoe aandacht instort
Zelf-Aandacht & Multihead Aandacht
> handmatig dot-product aandacht voor één token
> schaal naar multi-head, plot per-head gewicht hittekaarten
> maskeer toekomstige tokens, verifieer causale eigenschap
transformers, QKV, & stapelen
> stapel de Aandacht implementaties met LayerNorm en residuen → enkele-blok transformer
> generaliseer: n-blok "mini-former" op speelgoeddata
> dissecteer Q, K, V: verwissel ze, breek ze, kijk wat explodeert
Sampling Parameters: temp/top-k/top-p
> code een sampler dashboard — interactief temp/k/p afstemmen en sample-uitgangen
> plot entropie vs output diversiteit terwijl je parameters doorloopt
> nuke temp=0 (argmax): kijk naar herhaling
KV Cache (Snelle Inferentie)
> registreer & hergebruik KV-staten; meet versnelling vs geen-cache
> bouw een "cache hit/miss" visualizer voor tokenstromen
> profileer cachegeheugen kosten voor lange vs korte sequenties
Long-Context Tricks: Infini-Attention / Sliding Window
> implementeer sliding window aandacht; meet verlies op lange documenten
> benchmark "geheugen-efficiënte" (herberekenen, flits) varianten
> plot perplexiteit vs contextlengte; vind het context instortpunt
Mixture of Experts (MoE)
> code een 2-expert routerlaag; route tokens dynamisch
> plot expert benuttingshistogrammen over dataset
> simuleer spaarzame/dichte swaps; meet FLOP besparingen
Groep Vraag Aandacht
> converteer je mini-former naar gegroepeerde vraag lay-out
> meet snelheid vs vanilla multi-head op grote batch
> ablate aantal groepen, plot latentie
Normalisatie & Activaties
> handmatig LayerNorm, RMSNorm, SwiGLU, GELU implementeren
> ablate elk—wat gebeurt er met train/test verlies?
> plot activatiedistributies laaggewijs
Pretraining Doelstellingen
> train gemaskeerde LM vs causale LM vs prefix LM op speelgoedtekst
> plot verliescurves; vergelijk welke sneller "Engels" leert
> genereer monsters van elk — let op eigenaardigheden
Finetuning vs Instructie Tuning vs RLHF
> fine-tune op een kleine aangepaste dataset
> instructie-tune door taken voor te plaatsen ("Samenvatten: ...")
> RLHF: hack een beloningsmodel, gebruik PPO voor 10 stappen, plot beloning
Schaalwetten & Modelcapaciteit
> train kleine, middelgrote modellen — plot verlies vs grootte
> benchmark wandklok tijd, VRAM, doorvoer
> extrapoleer schaalcurve — hoe "dom" kun je gaan?
Kwantisatie
> code PTQ & QAT; exporteer naar GGUF/AWQ; plot nauwkeurigheidsdaling
Inferentie/Training Stacks:
> port een model van HuggingFace naar Deepspeed, vLLM, ExLlama
> profileer doorvoer, VRAM, latentie over alle drie
Synthetische Data
> genereer speelgoeddata, voeg ruis toe, dedupe, maak eval splits
> visualiseer model leer curves op echt vs synth
elk project = één kerninzicht. bouw. plot. breek. herhaal.
> raak niet te lang vast in theorie
> code, debug, ablate, zelfs meme je grafieken lol
> voltooi elk en post wat je geleerd hebt
je toekomstige zelf zal je later bedanken
36,29K
belangrijke onderwerpen om te leren hoe llms werken, het kost minder dan 2 jaar als je een cs-fundament hebt
> tokenisatie en embeddings
> positionele embeddings (absoluut, rope, alibi)
> zelfaandacht en multihead aandacht
> transformers
> qkv
> sampling parameters: temperatuur, top-k top-p
> kv-cache (en waarom inferentie snel is)
> infini aandacht & schuifvenster (lange context trucs)
> mengsel van experts (moe routeringslagen)
> gegroepeerde query-aandacht
> normalisatie en activaties
> pretrainingdoelen (causaal, gemaskeerd, enz.)
> finetuning vs instructietuning vs rlhf
> schaalwetten en modelcapaciteitscurves
bonusonderwerpen:
> kwantisaties - qat vs ptq (ggufs, awq, enz.)
> training vs inferentiestacks (deepspeed, vllm, enz.)
> synthetische gegevensgeneratie
5,4K
Boven
Positie
Favorieten