IBM rilascia i LLM Granite 4.1 con pipeline di addestramento multi-stadio
Il team Granite di IBM ha presentato Granite 4.1, una serie di LLM densi solo decoder disponibili in configurazioni da 3B, 8B e 30B parametri, sviluppati da zero utilizzando circa 15 trilioni di token. Questi modelli utilizzano un approccio di pre-addestramento in cinque fasi che passa da dati web su larga scala a contenuti meticolosamente curati di alta qualità, estendendo infine la lunghezza del contesto a 512K token. Dopo il pre-addestramento, vengono sottoposti a fine-tuning supervisionato con 4,1 milioni di campioni di alta qualità, impiegando un framework LLM-as-Judge per la garanzia di qualità. Un processo di apprendimento per rinforzo multi-stadio, che incorpora GRPO on-policy con perdita DAPO, migliora ulteriormente le prestazioni in matematica, codifica, aderenza alle istruzioni e applicazioni chat. Notevolmente, il modello instruct da 8B eguaglia o supera le prestazioni del precedente Granite 4.0-H-Small (32B-A9B MoE), nonostante la sua architettura più semplice. Tutti i modelli sono disponibili sotto licenza Apache 2.0. L'addestramento è avvenuto su un cluster NVIDIA GB200 NVL72 presso CoreWeave, utilizzando migliaia di GPU. Questi modelli supportano 12 lingue e sono progettati per applicazioni aziendali, garantendo latenza prevedibile e costi operativi ridotti.
Fatti principali
- Granite 4.1 include LLM densi solo decoder da 3B, 8B e 30B.
- Addestrato su ~15 trilioni di token in cinque fasi di pre-addestramento.
- Estensione del contesto lungo fino a 512K token tramite processo a stadi.
- SFT utilizza 4,1 milioni di campioni di alta qualità curati da LLM-as-Judge.
- Pipeline RL multi-stadio utilizza GRPO con perdita DAPO.
- Il modello da 8B eguaglia o supera il predecessore MoE da 32B-A9B.
- Rilasciato sotto licenza Apache 2.0.
- Addestrato su cluster NVIDIA GB200 NVL72 su CoreWeave.
Entità
Istituzioni
- IBM
- CoreWeave
- Hugging Face