Ereditarietà dei bias nell'ampliamento dei dati basato su LLM

ai-technology · 2026-05-07

Un nuovo studio da arXiv introduce il concetto di 'ereditarietà dei bias' nei modelli linguistici di grandi dimensioni (LLM), dove i bias presenti nei dati di addestramento vengono propagati e amplificati quando i modelli vengono messi a punto su dataset sintetici generati da LLM. La ricerca indaga sistematicamente questo fenomeno in 10 compiti di classificazione e generazione, analizzando sei diversi tipi di bias. Variando la proporzione di dati ampliati in set di dati reali e sintetici combinati, lo studio dimostra che l'ereditarietà dei bias influisce negativamente sulle prestazioni dei compiti downstream, in particolare nella classificazione e generazione legate ai bias. Il lavoro mira a comprendere e mitigare questi bias per migliorare l'equità e la robustezza degli LLM.

Fatti principali

Il paper arXiv 2502.04419v3 introduce l'ereditarietà dei bias negli LLM
L'ereditarietà dei bias si riferisce alla propagazione e amplificazione dei bias dai dati sintetici
Lo studio mette a punto LLM con dati reali e ampliati da LLM combinati
Gli esperimenti coprono 10 compiti di classificazione e generazione
Vengono analizzati sei diversi tipi di bias
L'ereditarietà dei bias danneggia le prestazioni nei compiti legati ai bias
L'indagine sistematica mira a comprendere e mitigare l'ereditarietà dei bias
Pubblicato su arXiv come annuncio di sostituzione

Ereditarietà dei bias nell'ampliamento dei dati basato su LLM

Fatti principali

Entità

Istituzioni

Fonti