BOOST: Ottimizzazione Bilevel per il Fine-Tuning di LLM in Conversazioni Multi-Turn
Il framework BOOST (Bilevel Optimization of Synthetic Trajectories) affronta il problema dell'ottimizzazione dei modelli linguistici di grandi dimensioni (LLM) per conversazioni multi-turn. Sebbene gli LLM eccellano in scenari a turno singolo, incontrano difficoltà in scambi prolungati e multi-turn. L'apprendimento per rinforzo offline (RL) offre un approccio scalabile, ma dipende fortemente dalla qualità dei dati di traiettorie multi-turn. Per migliorare l'addestramento, vengono spesso utilizzati dati sintetici da LLM o simulatori; tuttavia, una qualità inconsistente può compromettere le prestazioni se tutte le traiettorie vengono trattate uniformemente. BOOST impiega una strategia di ottimizzazione bilevel: il livello interno si concentra sull'addestramento dell'LLM utilizzando dati ripesati, mentre il livello esterno sviluppa una testa di ripesatura leggera basata su compiti di validazione reali tenuti da parte. Questo metodo assegna pesi continui a livello di traiettoria senza bisogno di un valutatore esterno. L'approccio si basa su un bound PAC-Bayesiano che evidenzia un trade-off a tre vie: mentre i dati sintetici aumentano la diversità, possono portare a uno spostamento del compito, e concentrare i pesi su traiettorie superiori potrebbe ridurre la diversità. Questo framework è descritto in un articolo disponibile su arXiv (2605.24743).
Fatti principali
- BOOST è un framework di ottimizzazione bilevel per il fine-tuning di LLM in conversazioni multi-turn.
- Affronta la sfida della qualità eterogenea nei dati di traiettorie sintetiche.
- Il livello interno addestra l'LLM su dati ripesati.
- Il livello esterno addestra una testa di ripesatura leggera su compiti di validazione reali tenuti da parte.
- Vengono assegnati pesi continui a livello di traiettoria senza un giudice esterno.
- Un bound PAC-Bayesiano rivela un trade-off a tre vie tra diversità, spostamento del compito e concentrazione dei pesi.
- L'articolo è disponibile su arXiv con ID 2605.24743.
- Il metodo è mirato all'apprendimento per rinforzo offline per LLM.
Entità
Istituzioni
- arXiv