pomysł matthewa na prywatny llm ujawnia większy paradygmat llm z gwarancją czystości. modele, które mogą udowodnić, że ich odpowiedzi nigdy nie będą zanieczyszczone danymi zewnętrznymi. ---------------------------- dostosowanie nie rozwiązuje tego problemu, obce dane wciąż przeciekają. uruchamianie lokalnie nie rozwiązuje tego, wagi są już zanieczyszczone. po prostu "trenuj na danych matthewa" nie rozwiązuje tego, chyba że matthew sam przeprowadza wstępne i końcowe szkolenie. takim rozwiązaniem są pipeline'y szkoleniowe, które wydają certyfikaty kryptograficzne, które każda strona trzecia może zweryfikować, udowadniając, że model był trenowany tylko na zatwierdzonym zbiorze danych. ---------------------------- aplikacje są ogromne: > cyfrowe bliźniaki artystów, które mówią tylko na podstawie własnych prac i notatek artysty > modele wierne pismu, które opierają się wyłącznie na tekstach świętych > nauczyciele medyczni, którzy są szkoleni tylko na zweryfikowanej literaturze klinicznej > archiwa kulturowe, które zachowują teksty rdzennych mieszkańców bez rozcieńczenia > doradcy prawni ograniczeni tylko do ustaw i orzecznictwa. ----------------------------- prawdziwy przełom nie polega na prywatności ani dostosowywaniu. chodzi o weryfikowalność pipeline'u szkoleniowego.