quase tudo na IA pode ser entendido através das lentes da compressão - a arquitetura é apenas um esquema para quando e como compactar - A otimização é um *processo* de compressão, com seu próprio nível de compactação e duração - (arquitetura + dados + otimização) = modelo - Em outras palavras, um modelo é apenas uma forma compactada de um conjunto de dados (com algumas opções extras) - A quantização post-hoc é um processo de compactação de um modelo ainda mais - generalização é uma medida da qualidade da compressão - As leis de escala são medidas da taxa de compressão e do tamanho dos dados - diferentes conjuntos de dados têm taxas de compactação altamente variáveis (por exemplo, texto vs imagens) - A inferência pode ser vista como uma descompactação de prompt condicionada pelo modelo