COFT: Decodifica controfattuale-conforme per un ragionamento equo a catena di pensiero nei LLM
I ricercatori di arXiv hanno introdotto un nuovo approccio di decodifica chiamato COFT (Chain of Fair Thought), che mira a minimizzare i bias sociali nei modelli linguistici di grandi dimensioni durante il ragionamento a catena di pensiero senza richiedere addestramento. Questo metodo implementa il controllo dell'equità a livello di token nella fase di decodifica, garantendo una validità marginale senza distribuzione sotto scambiabilità per qualsiasi modello linguistico causale fisso. COFT funziona attraverso tre fasi: generazione di un prompt controfattuale mascherato sostituendo span sensibili con token neutri, utilizzo di una fusione leggera di logit per confrontare le distribuzioni di logit fattuali e mascherate per la riduzione dei bias, e applicazione di una calibrazione conforme a doppio ramo per validare insiemi di token candidati a un livello di rischio specificato. Testato su sei modelli e vari benchmark di bias, COFT ottiene una riduzione del 30-55% nelle metriche di bias standard (mediana 38%) mantenendo l'utilità del compito e la qualità linguistica. Le accuratezze di ragionamento sono preservate. La ricerca è accessibile su arXiv con l'identificatore 2605.30641.
Fatti principali
- COFT è un metodo di decodifica senza addestramento per un ragionamento equo a catena di pensiero.
- Applica il controllo dell'equità a livello di token al momento della decodifica.
- Fornisce garanzie di validità marginale senza distribuzione sotto scambiabilità.
- Funziona con qualsiasi modello linguistico causale congelato.
- Opera in tre fasi: mascheratura controfattuale, fusione di logit e calibrazione conforme.
- Riduce le metriche di bias del 30-55% (mediana 38%).
- Preserva l'utilità del compito e la qualità linguistica.
- Valutato su sei modelli e molteplici benchmark di bias.
Entità
Istituzioni
- arXiv