Oto jednozdaniowe podsumowanie kodu w MLX z wpisu na blogu @thinkymachines na temat niedeterministyczności w wnioskowaniu LLM. Zgaduję, że różnica jest większa przy niższej precyzji, ponieważ większy wpływ mają efekty z nieasocjatywności matematyki FP. Interesujące jest to, że sugeruje to, iż trening przy niskiej precyzji (myśl NVFP4) może sprawić, że generacja będzie znacznie bardziej wrażliwa na rozmiar partii.