Ogromny model treningowy otwartego źródła od @_xjdr XJDR to szalony naukowiec, więc zajęło mi kilka prób, aby naprawdę to zrozumieć, a wciąż mogę nie doceniać całego wyniku. Normalnie, jeśli chcesz wytrenować zupełnie nowy model bazowy od podstaw, potrzebujesz mnóstwa GPU, aby w ogóle rozpocząć poważny trening. To kosztowne. Jednym z najtrudniejszych rodzajów do wytrenowania jest projekt Mixture of Experts w stylu DeepSeek. Jest potężny, ale system routingu i konfiguracja treningu są tak kapryśne, że małe testy często się nie udają. Więc kończysz potrzebując dużego klastra, aby cokolwiek się nauczyć, a gdy próba się nie udaje, nie możesz powiedzieć, czy twój pomysł był zły, czy po prostu konfiguracja się zepsuła, więc badania umierają i niczego się nie uczysz. XJDR udostępnia nmoe, gotową do uruchomienia fabrykę treningową zaprojektowaną tak, jakby zrobił to ekspert, specjalnie po to, aby ta klasa modeli mogła być trenowana i badana na pojedynczej maszynie bez ciągłych awarii. Małe eksperymenty zachowują się jak prawdziwy trening, więc możesz uzyskać czyste tak lub nie, zanim wydasz osiem cyfr i miesiące czasu. W rzeczywistości ludzie mogą przeprowadzać tanie, szybkie próby, zmieniając jedną rzecz na raz, jak działają routingi modelu między specjalistami, jak się uczy (przepis treningowy), jakie dane mu podajesz i jak uzyskać więcej jakości za dolara. W zasadzie testujesz nowe pomysły na lepsze modele bazowe w ten sam sposób, w jaki testowałbyś produkt A/B, ale możesz to robić poza dużym laboratorium. Ogólny wpływ to szybsza iteracja i znaczne oszczędności kosztów, a także więcej zespołów może realistycznie budować nowe modele bazowe. To może oznaczać lepszy model klasy DeepSeek, zupełnie nowe modele w stylu specjalistycznym i znacznie więcej konkurencji oraz otwartych badań, ponieważ opłata wstępna spada drastycznie, a więcej przełomów dzieje się publicznie. Bądźcie czujni, on udostępnia większość z tego! Gratulacje @_xjdr. Bardzo się cieszymy, że możemy cię wspierać i być małą częścią twojej historii.