DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

nanochat può ora addestrare un LLM di grado GPT-2 per <<$100 (~$73, 3 ore su un singolo nodo 8XH100). GPT-2 è semplicemente il mio LLM preferito perché è la prima volta che lo stack LLM si unisce in una forma riconoscibilmente moderna. Quindi è diventata un po' una strana e duratura ossessione per me addestrare un modello con capacità GPT-2 ma a un costo molto inferiore, con il beneficio di ~7 anni di progressi. In particolare, sospettavo che oggi dovrebbe essere possibile addestrarne uno per <<$100. Originariamente nel 2019, GPT-2 è stato addestrato da OpenAI su 32 chip TPU v3 per 168 ore (7 giorni), con $8/ora/TPUv3 all'epoca, per un costo totale di circa $43K. Raggiunge un punteggio CORE di 0.256525, che è una metrica di ensemble introdotta nel documento DCLM su 22 valutazioni come ARC/MMLU/etc. A seguito degli ultimi miglioramenti fusi in nanochat (molti dei quali originano dal repo modded-nanogpt), ora posso raggiungere un punteggio CORE più alto in 3.04 ore (~$73) su un singolo nodo 8XH100. Questo rappresenta una riduzione dei costi di 600X in 7 anni, cioè il costo per addestrare GPT-2 sta diminuendo di circa 2.5X ogni anno. Penso che questa sia probabilmente una sottovalutazione perché continuo a trovare miglioramenti relativamente regolarmente e ho un backlog di altre idee da provare. Un post più lungo con molti dettagli sulle ottimizzazioni coinvolte e indicazioni su come riprodurre è qui: Ispirato da modded-nanogpt, ho anche creato una classifica per "tempo per GPT-2", dove questo primo modello "Jan29" è l'entry #1 a 3.04 ore. Sarà divertente iterare ulteriormente su questo e accolgo aiuto! La mia speranza è che nanochat possa crescere per diventare un LLM sperimentale molto bello/pulito e sintonizzato per prototipare idee, per divertirsi e ovviamente per imparare. I maggiori miglioramenti di cose che hanno funzionato subito e hanno semplicemente prodotto guadagni immediati sono stati 1) Flash Attention 3 kernels (più veloci e consente il parametro kwarg window_size per ottenere schemi di attenzione alternati), ottimizzatore Muon (ho provato per ~1 giorno a eliminarlo e usare solo AdamW e non ci sono riuscito), percorsi residui e connessioni di salto controllate da scalari apprendibili, e embedding di valore. Ci sono state molte altre piccole cose che si accumulano. Immagine: caramella per gli occhi semi-correlata derivante dalle leggi di scaling per l'attuale miniserie del modello nanochat, bella e soddisfacente!

Principali

Ranking

Preferiti