pomysł matthewa na prywatny llm ujawnia większy paradygmat llm z gwarancją czystości. modele, które mogą udowodnić, że ich odpowiedzi nigdy nie będą zanieczyszczone danymi zewnętrznymi. ---------------------------- dostosowanie nie rozwiązuje tego problemu, obce dane wciąż przeciekają. uruchamianie lokalnie nie rozwiązuje tego, wagi są już zanieczyszczone. po prostu "trenuj na danych matthewa" nie rozwiązuje tego, chyba że matthew sam przeprowadza trening przed i po. rozwiązaniem są pipeline'y treningowe, które wydają certyfikaty kryptograficzne, które każda strona trzecia może zweryfikować, udowadniając, że model był trenowany tylko na zatwierdzonym zbiorze danych. ---------------------------- aplikacje są ogromne: > cyfrowe bliźniaki artystów, które mówią tylko na podstawie własnych prac i notatek artysty > modele wierne pismu, które są oparte wyłącznie na tekstach świętych > tutorzy medyczni, którzy są trenowani tylko na zweryfikowanej literaturze klinicznej > archiwa kulturowe, które zachowują teksty rdzenne bez rozcieńczenia > doradcy prawni, którzy są ograniczeni do ustaw i orzecznictwa. ----------------------------- prawdziwy przełom nie polega na prywatności ani dostosowaniu. chodzi o weryfikowalność pipeline'u treningowego.