Costruisci il tuo GPT da zero in un singolo workshop
Un nuovo workshop pratico guida i partecipanti nella costruzione di un modello GPT funzionante da zero, scrivendo ogni componente del pipeline di addestramento. Basato su nanoGPT di Andrej Karpathy, il progetto riduce l'architettura a un modello di circa 10 milioni di parametri che si addestra su un laptop in meno di un'ora. I partecipanti costruiscono un tokenizer a livello di carattere, un modello transformer (embeddings, attention, feed-forward layers), un ciclo di addestramento (forward pass, loss, backprop, optimizer, learning rate scheduling) e un generatore di testo capace di produrre testo simile a Shakespeare. Non vengono utilizzate librerie black-box; tutto è scritto in Python con PyTorch. Il workshop è progettato per chiunque sia a suo agio nel leggere codice Python, senza richiedere esperienza pregressa in machine learning. L'addestramento utilizza automaticamente GPU Apple Silicon (MPS), GPU NVIDIA (CUDA) o CPU, e funziona anche su Google Colab. Il progetto è ispirato a nanoGPT di Karpathy, che riproduce GPT-2 (124M parametri) in circa 300 righe di PyTorch. Riferimenti aggiuntivi includono microgpt di Karpathy (200 righe di Python puro), nanochat (clone di ChatGPT), l'articolo originale 'Attention Is All You Need' (2017), l'articolo su GPT-2 (2019) e l'articolo TinyStories su modelli piccoli con dati curati.
Fatti principali
- Il workshop costruisce un modello GPT di circa 10M parametri da zero
- Si addestra su un laptop in meno di un'ora
- Utilizza tokenizzazione a livello di carattere su Shakespeare (vocab_size=65, block_size=256)
- Nessuna libreria black-box; tutto il codice è scritto in Python con PyTorch
- Basato sul progetto nanoGPT di Andrej Karpathy
- Funziona su GPU Apple Silicon (MPS), GPU NVIDIA (CUDA) o CPU
- Funziona anche su Google Colab
- Riferimenti includono 'Attention Is All You Need' (2017) e l'articolo su GPT-2 (2019)
Entità
Artisti
- Andrej Karpathy