ActiveDPO: Allineamento Efficiente degli LLM tramite Selezione Attiva dei Dati

ai-technology · 2026-05-18

ActiveDPO è un nuovo algoritmo per allineare i modelli linguistici di grandi dimensioni (LLM) con le preferenze umane utilizzando la selezione attiva dei dati. Affronta l'alto costo della raccolta di annotazioni di preferenza selezionando i punti dati più informativi. A differenza dei metodi precedenti, ActiveDPO non si basa su assunzioni restrittive come funzioni di ricompensa lineari; invece, utilizza l'LLM stesso per parametrizzare il modello di ricompensa per la selezione dei dati. L'approccio è fondato teoricamente e mira a migliorare l'efficienza del campionamento in compiti di allineamento come risposta a domande, ragionamento matematico e generazione di codice. Il paper è disponibile su arXiv con ID 2505.19241.

Fatti principali

1. ActiveDPO è un algoritmo per l'allineamento efficiente degli LLM in termini di campionamento.
2. Utilizza la selezione attiva dei dati per ridurre i costi di annotazione delle preferenze umane.
3. Il metodo funziona con funzioni di ricompensa non lineari.
4. L'LLM stesso parametrizza il modello di ricompensa per la selezione dei dati.
5. L'approccio è teoricamente fondato.
6. Si rivolge a compiti downstream come risposta a domande, ragionamento matematico e generazione di codice.
7. Il paper è su arXiv (2505.19241).
8. I metodi esistenti spesso si basano su assunzioni restrittive riguardo alle funzioni di ricompensa.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18