ARTFEED — Contemporary Art Intelligence

L'addestramento con pareggi mitiga le correlazioni spurie nell'ottimizzazione delle preferenze

ai-technology · 2026-05-13

Una nuova analisi teorica rivela che i metodi di apprendimento delle preferenze come l'ottimizzazione diretta delle preferenze (DPO) inducono intrinsecamente una dipendenza da correlazioni spurie, causando sicofania e bias di lunghezza nei modelli linguistici. Lo studio, pubblicato su arXiv, identifica due meccanismi: bias spurio medio e perdita di correlazione causale-spuria. Mostra che l'aumento dei dati dalla stessa distribuzione non riduce questa dipendenza. Gli autori propongono l'addestramento con pareggi come strategia di mitigazione dimostrabile.

Fatti principali

  • I metodi di apprendimento delle preferenze come DPO inducono una dipendenza da correlazioni spurie.
  • Le correlazioni spurie portano a sicofania e bias di lunghezza nei modelli linguistici.
  • Lo studio fornisce un'analisi teorica unificata dell'apprendimento spurio.
  • Due canali di dipendenza da caratteristiche spurie: bias spurio medio e perdita di correlazione causale-spuria.
  • Più dati dalla stessa distribuzione di addestramento non riducono la dipendenza da caratteristiche spurie.
  • L'addestramento con pareggi è proposto come strategia di mitigazione.
  • L'analisi si concentra su politiche log-lineari.
  • L'articolo è disponibile su arXiv con ID 2605.11134.

Entità

Istituzioni

  • arXiv

Fonti