COFT: Decodifica controfattuale-conforme per un ragionamento equo a catena di pensiero nei LLM

ai-technology · 2026-06-01

I ricercatori di arXiv hanno introdotto un nuovo approccio di decodifica chiamato COFT (Chain of Fair Thought), che mira a minimizzare i bias sociali nei modelli linguistici di grandi dimensioni durante il ragionamento a catena di pensiero senza richiedere addestramento. Questo metodo implementa il controllo dell'equità a livello di token nella fase di decodifica, garantendo una validità marginale senza distribuzione sotto scambiabilità per qualsiasi modello linguistico causale fisso. COFT funziona attraverso tre fasi: generazione di un prompt controfattuale mascherato sostituendo span sensibili con token neutri, utilizzo di una fusione leggera di logit per confrontare le distribuzioni di logit fattuali e mascherate per la riduzione dei bias, e applicazione di una calibrazione conforme a doppio ramo per validare insiemi di token candidati a un livello di rischio specificato. Testato su sei modelli e vari benchmark di bias, COFT ottiene una riduzione del 30-55% nelle metriche di bias standard (mediana 38%) mantenendo l'utilità del compito e la qualità linguistica. Le accuratezze di ragionamento sono preservate. La ricerca è accessibile su arXiv con l'identificatore 2605.30641.

Fatti principali

COFT è un metodo di decodifica senza addestramento per un ragionamento equo a catena di pensiero.
Applica il controllo dell'equità a livello di token al momento della decodifica.
Fornisce garanzie di validità marginale senza distribuzione sotto scambiabilità.
Funziona con qualsiasi modello linguistico causale congelato.
Opera in tre fasi: mascheratura controfattuale, fusione di logit e calibrazione conforme.
Riduce le metriche di bias del 30-55% (mediana 38%).
Preserva l'utilità del compito e la qualità linguistica.
Valutato su sei modelli e molteplici benchmark di bias.

COFT: Decodifica controfattuale-conforme per un ragionamento equo a catena di pensiero nei LLM

Fatti principali

Entità

Istituzioni

Fonti