L'addestramento con pareggi mitiga le correlazioni spurie nell'ottimizzazione delle preferenze
Una nuova analisi teorica rivela che i metodi di apprendimento delle preferenze come l'ottimizzazione diretta delle preferenze (DPO) inducono intrinsecamente una dipendenza da correlazioni spurie, causando sicofania e bias di lunghezza nei modelli linguistici. Lo studio, pubblicato su arXiv, identifica due meccanismi: bias spurio medio e perdita di correlazione causale-spuria. Mostra che l'aumento dei dati dalla stessa distribuzione non riduce questa dipendenza. Gli autori propongono l'addestramento con pareggi come strategia di mitigazione dimostrabile.
Fatti principali
- I metodi di apprendimento delle preferenze come DPO inducono una dipendenza da correlazioni spurie.
- Le correlazioni spurie portano a sicofania e bias di lunghezza nei modelli linguistici.
- Lo studio fornisce un'analisi teorica unificata dell'apprendimento spurio.
- Due canali di dipendenza da caratteristiche spurie: bias spurio medio e perdita di correlazione causale-spuria.
- Più dati dalla stessa distribuzione di addestramento non riducono la dipendenza da caratteristiche spurie.
- L'addestramento con pareggi è proposto come strategia di mitigazione.
- L'analisi si concentra su politiche log-lineari.
- L'articolo è disponibile su arXiv con ID 2605.11134.
Entità
Istituzioni
- arXiv