MIPO: L'ottimizzazione della preferenza per l'informazione reciproca migliora la personalizzazione degli LLM senza dati aggiuntivi
I ricercatori propongono Mutual Information Preference Optimization (MIPO), un framework di auto-miglioramento per modelli linguistici di grandi dimensioni (LLM) che non richiede dati aggiuntivi etichettati da umani o verificatori esterni. MIPO costruisce coppie di preferenza generando una risposta positiva condizionata al prompt corretto e una risposta negativa condizionata a un prompt casuale e non correlato. Utilizzando Direct Preference Optimization (DPO) per apprendere da queste coppie, si massimizza l'informazione mutua puntuale condizionata tra prompt e risposte del modello sotto l'LLM di base. Questo approccio affronta il limite dei metodi di post-addestramento che si basano su costosa supervisione umana e dati già sfruttati. Il metodo è dettagliato nel preprint arXiv 2603.19294v2.
Fatti principali
- 1. MIPO sta per Mutual Information Preference Optimization.
- 2. Costruisce coppie di preferenza utilizzando prompt corretti e casuali.
- 3. La risposta positiva è condizionata al prompt corretto.
- 4. La risposta negativa è condizionata a un prompt casuale e non correlato.
- 5. DPO viene utilizzato per apprendere dai dati accoppiati.
- 6. Il metodo massimizza l'informazione mutua puntuale condizionata.
- 7. Non sono necessari dati aggiuntivi etichettati da umani o verificatori esterni.
- 8. Il preprint è disponibile su arXiv con ID 2603.19294v2.
Entità
Istituzioni
- arXiv