quasi tutto in AI può essere compreso attraverso la lente della compressione - l'architettura è solo uno schema per quando e come comprimere - l'ottimizzazione è un *processo* di compressione, con il proprio livello e durata di compressione - (architettura + dati + ottimizzazione) = modello - in altre parole, un modello è solo una forma compressa di un dataset (con alcune scelte extra) - la quantizzazione posthoc è un processo di compressione ulteriore di un modello - la generalizzazione è una misura della qualità della compressione - le leggi di scaling sono misurazioni del rapporto di compressione e della dimensione dei dati - diversi dataset hanno tassi di compressione altamente variabili (ad es. testo vs immagini) - l'inferenza può essere vista come una decompressione di prompt condizionata dal modello