casi todo en AI se puede entender a través de la lente de la compresión - la arquitectura es solo un esquema de cuándo y cómo comprimir - la optimización es un *proceso* de compresión, con su propio nivel y duración de compresión - (arquitectura + datos + optimización) = modelo - en otras palabras, un modelo es solo una forma comprimida de un conjunto de datos (con algunas elecciones adicionales) - la cuantización posthoc es un proceso de comprimir un modelo aún más - la generalización es una medida de la calidad de la compresión - las leyes de escalado son medidas de la relación de compresión y el tamaño de los datos - diferentes conjuntos de datos tienen tasas de compresión altamente variables (por ejemplo, texto vs imágenes) - la inferencia se puede ver como una descompresión de un prompt condicionado por el modelo