Nuovo metodo RL riduce il bias politico nascosto nei LLM
Un team di ricercatori ha scoperto una tecnica volta a ridurre il bias politico nascosto nei modelli linguistici di grandi dimensioni (LLM). I loro risultati rivelano che gli LLM mostrano un bias politico sistematico, in particolare in contesti sensibili, dove trattano argomenti di opposte visioni politiche in modo diseguale—una situazione definita bias politico nascosto. Hanno categorizzato questo bias in sette tecniche operative. Per quantificarlo, hanno proposto due metriche: Coerenza del Sentimento, che valuta la simmetria della retorica tra prompt politici accoppiati, e Coerenza dell'Utilità, che valuta la profondità e l'impegno delle risposte. Per mitigare entrambi i bias, hanno creato il Political Consistency Training (PCT), un metodo di apprendimento per rinforzo con due approcci complementari. I risultati indicano che il PCT mantiene l'utilità complessiva riducendo significativamente il bias politico nascosto e generalizzando a benchmark non visti. Questa ricerca è disponibile su arXiv.
Fatti principali
- Gli LLM mostrano un bias politico sistematico in contesti sensibili
- Il bias politico nascosto si riferisce alla gestione asimmetrica di argomenti contrapposti da parti politiche opposte
- Identificate 7 categorie di tecniche per il bias politico nascosto
- La metrica Coerenza del Sentimento misura la simmetria nella retorica e nell'inquadramento
- La metrica Coerenza dell'Utilità misura la simmetria di profondità e impegno
- Il Political Consistency Training (PCT) è un metodo di addestramento RL
- Il PCT include l'Addestramento alla Coerenza del Sentimento e l'Addestramento alla Coerenza dell'Utilità
- Il PCT preserva l'utilità complessiva e riduce il bias politico nascosto
- Il PCT generalizza a benchmark non visti
- Lavoro rilasciato su arXiv
Entità
Istituzioni
- arXiv