ActiveDPO: Allineamento Efficiente degli LLM tramite Selezione Attiva dei Dati
ActiveDPO è un nuovo algoritmo per allineare i modelli linguistici di grandi dimensioni (LLM) con le preferenze umane utilizzando la selezione attiva dei dati. Affronta l'alto costo della raccolta di annotazioni di preferenza selezionando i punti dati più informativi. A differenza dei metodi precedenti, ActiveDPO non si basa su assunzioni restrittive come funzioni di ricompensa lineari; invece, utilizza l'LLM stesso per parametrizzare il modello di ricompensa per la selezione dei dati. L'approccio è fondato teoricamente e mira a migliorare l'efficienza del campionamento in compiti di allineamento come risposta a domande, ragionamento matematico e generazione di codice. Il paper è disponibile su arXiv con ID 2505.19241.
Fatti principali
- 1. ActiveDPO è un algoritmo per l'allineamento efficiente degli LLM in termini di campionamento.
- 2. Utilizza la selezione attiva dei dati per ridurre i costi di annotazione delle preferenze umane.
- 3. Il metodo funziona con funzioni di ricompensa non lineari.
- 4. L'LLM stesso parametrizza il modello di ricompensa per la selezione dei dati.
- 5. L'approccio è teoricamente fondato.
- 6. Si rivolge a compiti downstream come risposta a domande, ragionamento matematico e generazione di codice.
- 7. Il paper è su arXiv (2505.19241).
- 8. I metodi esistenti spesso si basano su assunzioni restrittive riguardo alle funzioni di ricompensa.
Entità
—