presque tout dans l'IA peut être compris à travers le prisme de la compression - l'architecture est juste un schéma pour quand et comment compresser - l'optimisation est un *processus* de compression, avec son propre niveau et sa propre durée de compression - (architecture + données + optimisation) = modèle - en d'autres termes, un modèle n'est qu'une forme compressée d'un ensemble de données (avec quelques choix supplémentaires) - la quantification posthoc est un processus de compression d'un modèle encore plus loin - la généralisation est une mesure de la qualité de compression - les lois d'échelle sont des mesures du ratio de compression et de la taille des données - différents ensembles de données ont des taux de compression très variables (par exemple texte vs images) - l'inférence peut être vue comme une décompression de prompt conditionnée par le modèle