niemal wszystko w AI można zrozumieć przez pryzmat kompresji - architektura to tylko schemat, kiedy i jak kompresować - optymalizacja to proces kompresji, z własnym poziomem kompresji i czasem trwania - (architektura + dane + optymalizacja) = model - innymi słowy, model to tylko skompresowana forma zbioru danych (z dodatkowymi wyborami) - post hoc kwantyzacja to proces dalszej kompresji modelu - generalizacja to miara jakości kompresji - prawa skalowania to miary współczynnika kompresji i rozmiaru danych - różne zbiory danych mają bardzo zmienne wskaźniki kompresji (np. tekst w porównaniu do obrazów) - wnioskowanie można postrzegać jako dekompresję podpowiedzi warunkowanej modelem