quase tudo em AI pode ser entendido através da lente da compressão - a arquitetura é apenas um esquema para quando e como comprimir - a otimização é um *processo* de compressão, com seu próprio nível e duração de compressão - (arquitetura + dados + otimização) = modelo - em outras palavras, um modelo é apenas uma forma comprimida de um conjunto de dados (com algumas escolhas extras) - a quantização posthoc é um processo de compressão de um modelo ainda mais - a generalização é uma medida da qualidade da compressão - as leis de escalonamento são medidas da razão de compressão e do tamanho dos dados - diferentes conjuntos de dados têm taxas de compressão altamente variáveis (por exemplo, texto vs imagens) - a inferência pode ser vista como uma descompressão de prompt condicionada ao modelo