Costruisci il tuo GPT da zero in un singolo workshop

digital · 2026-05-05

Un nuovo workshop pratico guida i partecipanti nella costruzione di un modello GPT funzionante da zero, scrivendo ogni componente del pipeline di addestramento. Basato su nanoGPT di Andrej Karpathy, il progetto riduce l'architettura a un modello di circa 10 milioni di parametri che si addestra su un laptop in meno di un'ora. I partecipanti costruiscono un tokenizer a livello di carattere, un modello transformer (embeddings, attention, feed-forward layers), un ciclo di addestramento (forward pass, loss, backprop, optimizer, learning rate scheduling) e un generatore di testo capace di produrre testo simile a Shakespeare. Non vengono utilizzate librerie black-box; tutto è scritto in Python con PyTorch. Il workshop è progettato per chiunque sia a suo agio nel leggere codice Python, senza richiedere esperienza pregressa in machine learning. L'addestramento utilizza automaticamente GPU Apple Silicon (MPS), GPU NVIDIA (CUDA) o CPU, e funziona anche su Google Colab. Il progetto è ispirato a nanoGPT di Karpathy, che riproduce GPT-2 (124M parametri) in circa 300 righe di PyTorch. Riferimenti aggiuntivi includono microgpt di Karpathy (200 righe di Python puro), nanochat (clone di ChatGPT), l'articolo originale 'Attention Is All You Need' (2017), l'articolo su GPT-2 (2019) e l'articolo TinyStories su modelli piccoli con dati curati.

Fatti principali

Il workshop costruisce un modello GPT di circa 10M parametri da zero
Si addestra su un laptop in meno di un'ora
Utilizza tokenizzazione a livello di carattere su Shakespeare (vocab_size=65, block_size=256)
Nessuna libreria black-box; tutto il codice è scritto in Python con PyTorch
Basato sul progetto nanoGPT di Andrej Karpathy
Funziona su GPU Apple Silicon (MPS), GPU NVIDIA (CUDA) o CPU
Funziona anche su Google Colab
Riferimenti includono 'Attention Is All You Need' (2017) e l'articolo su GPT-2 (2019)

Costruisci il tuo GPT da zero in un singolo workshop

Fatti principali

Entità

Artisti

Fonti