почти все в AI можно понять через призму сжатия - архитектура — это просто схема для того, когда и как сжимать - оптимизация — это *процесс* сжатия, с собственным уровнем сжатия и продолжительностью - (архитектура + данные + оптимизация) = модель - другими словами, модель — это просто сжатая форма набора данных (с некоторыми дополнительными выборами) - постфактумная квантизация — это процесс дальнейшего сжатия модели - обобщение — это измерение качества сжатия - законы масштабирования — это измерения отношения сжатия и размера данных - разные наборы данных имеют сильно изменяющиеся коэффициенты сжатия (например, текст против изображений) - вывод можно рассматривать как декомпрессию подсказки, обусловленной моделью