InfiniPipe: Parallelismo Pipeline Elastico per un Addestramento Efficiente di LLM a Contesto Lungo e Lunghezza Variabile

ai-technology · 2026-04-25

È stato sviluppato un nuovo approccio chiamato InfiniPipe per migliorare l'efficienza dell'addestramento di modelli linguistici di grandi dimensioni (LLM) su sequenze di contesto lungo attraverso il Parallelismo Pipeline Elastico (EPP). L'addestramento con contesti lunghi è cruciale per ampliare le funzionalità degli LLM; tuttavia, i metodi tradizionali come il parallelismo di sequenza sono ostacolati da un significativo overhead di comunicazione. Sebbene il parallelismo pipeline (PP) allevi questi costi, il suo successo è influenzato dalla partizione delle sequenze. Il PP a livello di batch, che raggruppa le sequenze, porta a un uso eccessivo di memoria per contesti lunghi, mentre il PP a livello di token, che divide le sequenze, potrebbe non utilizzare pienamente le risorse hardware. Dato che i dataset reali spesso hanno distribuzioni di lunghezza delle sequenze non uniformi, il PP a granularità fissa si rivela inadeguato. L'EPP di InfiniPipe combina flessibilmente il PP a livello di token e a livello di batch per rispondere a risorse e carichi di lavoro variabili. Inoltre, il Checkpointing Adattivo a Livello di Chunk Consapevole dello Stadio integra il gradient checkpointing con l'EPP per ridurre al minimo il consumo di memoria. Questa ricerca è documentata su arXiv con ID 2509.21275.

Fatti principali

InfiniPipe propone il Parallelismo Pipeline Elastico (EPP) per l'addestramento di LLM.
L'addestramento a contesto lungo è cruciale per l'estensione del contesto degli LLM.
Il parallelismo di sequenza comporta un notevole overhead di comunicazione.
Il parallelismo pipeline riduce il costo di comunicazione.
Il PP a livello di batch ha un elevato consumo di memoria in scenari di contesto lungo.
Il PP a livello di token può causare sottoutilizzo dell'hardware.
I dataset reali hanno distribuzioni di lunghezza delle sequenze sbilanciate.
Il Checkpointing Adattivo a Livello di Chunk Consapevole dello Stadio si integra con l'EPP.

InfiniPipe: Parallelismo Pipeline Elastico per un Addestramento Efficiente di LLM a Contesto Lungo e Lunghezza Variabile

Fatti principali

Entità

Istituzioni

Fonti