Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un modèle de formation de fondation open source massif débloqué par @_xjdr
XJDR est un scientifique fou, donc il m'a fallu plusieurs essais pour vraiment comprendre, et je ne suis toujours pas sûr d'apprécier pleinement le résultat entier.
Normalement, si vous voulez entraîner un tout nouveau modèle de base depuis zéro, vous avez besoin d'une tonne de GPU juste pour démarrer une formation sérieuse. C'est coûteux.
L'un des types les plus difficiles à entraîner est le design Mixture of Experts de style DeepSeek. C'est puissant, mais le système de routage et la configuration de l'entraînement sont si délicats que les tests à petite échelle s'effondrent souvent. Vous finissez donc par avoir besoin d'un grand cluster juste pour apprendre quoi que ce soit, et quand un essai échoue, vous ne pouvez pas dire si votre idée était fausse ou si la configuration a simplement échoué, donc la recherche meurt et vous n'apprenez rien.
XJDR open source nmoe, une usine de formation prête à l'emploi câblée comme un expert le ferait, spécifiquement pour que cette classe de modèles puisse être entraînée et recherchée sur une seule machine sans pannes constantes. Les petites expériences se comportent comme un véritable entraînement, donc vous pouvez obtenir un oui ou un non clair avant de dépenser huit chiffres et des mois de temps.
En réalité, les gens peuvent réaliser des essais rapides et peu coûteux où vous changez une chose à la fois, comme le fonctionnement des routages du modèle entre les spécialistes, comment il apprend (recette d'entraînement), quelles données vous lui fournissez, et comment vous extrayez plus de qualité par dollar. Vous testez essentiellement de nouvelles idées pour de meilleurs modèles de base de la même manière que vous testeriez un produit en A/B, mais vous pouvez le faire en dehors d'un grand laboratoire.
L'impact net est une itération plus rapide et des économies de coûts majeures, de plus, plus d'équipes peuvent raisonnablement construire de nouveaux modèles de fondation. Cela peut signifier un meilleur modèle de classe DeepSeek, de tout nouveaux modèles de style spécialiste, et beaucoup plus de concurrence et de recherche ouverte parce que le coût d'entrée diminue fortement et que plus de percées se produisent en public.
Restez à l'écoute, il open source la plupart d'entre eux !
Félicitations @_xjdr. Nous sommes très heureux de vous soutenir et d'être une petite partie de votre histoire.
Meilleurs
Classement
Favoris
