Parallelismo Tensoriale Adattivo Accelera la Generazione a Lunga Coda in RLHF
I ricercatori hanno introdotto PAT, un metodo per il parallelismo tensoriale adattivo che modifica le configurazioni TP in tempo reale durante la fase di generazione sincrona dell'addestramento RLHF. Questo approccio affronta il problema dello sbilanciamento della lunghezza delle risposte, che porta a un uso inefficiente della GPU per risposte lunghe. Utilizzando una riconfigurazione online guidata da predittori, PAT determina il momento e il modo ottimali per regolare le impostazioni TP basandosi su profilazioni precedenti, avviando modifiche solo quando i vantaggi in termini di latenza superano i costi associati.
Fatti principali
- 1. RLHF è un paradigma chiave di post-addestramento per migliorare la qualità del modello.
- 2. Il pipeline sincrono a tre fasi di RLHF è limitato dalla fase di generazione.
- 3. Lo sbilanciamento della lunghezza delle risposte causa una riduzione della dimensione effettiva del batch durante la decodifica.
- 4. I framework mainstream utilizzano una configurazione statica di parallelismo tensoriale (TP).
- 5. PAT è un metodo TP adattivo che riconfigura dinamicamente TP durante la generazione.
- 6. PAT introduce un metodo di riconfigurazione online guidato da predittori.
- 7. Il punto di riconfigurazione e la configurazione TP target si basano su profilazione offline.
- 8. La riconfigurazione viene attivata solo quando il beneficio di latenza previsto supera il costo.
Entità
—