L'addestramento con pareggi mitiga le correlazioni spurie nell'ottimizzazione delle preferenze

ai-technology · 2026-05-13

Una nuova analisi teorica rivela che i metodi di apprendimento delle preferenze come l'ottimizzazione diretta delle preferenze (DPO) inducono intrinsecamente una dipendenza da correlazioni spurie, causando sicofania e bias di lunghezza nei modelli linguistici. Lo studio, pubblicato su arXiv, identifica due meccanismi: bias spurio medio e perdita di correlazione causale-spuria. Mostra che l'aumento dei dati dalla stessa distribuzione non riduce questa dipendenza. Gli autori propongono l'addestramento con pareggi come strategia di mitigazione dimostrabile.

Fatti principali

I metodi di apprendimento delle preferenze come DPO inducono una dipendenza da correlazioni spurie.
Le correlazioni spurie portano a sicofania e bias di lunghezza nei modelli linguistici.
Lo studio fornisce un'analisi teorica unificata dell'apprendimento spurio.
Due canali di dipendenza da caratteristiche spurie: bias spurio medio e perdita di correlazione causale-spuria.
Più dati dalla stessa distribuzione di addestramento non riducono la dipendenza da caratteristiche spurie.
L'addestramento con pareggi è proposto come strategia di mitigazione.
L'analisi si concentra su politiche log-lineari.
L'articolo è disponibile su arXiv con ID 2605.11134.

L'addestramento con pareggi mitiga le correlazioni spurie nell'ottimizzazione delle preferenze

Fatti principali

Entità

Istituzioni

Fonti