Macro: Un framework di allineamento delle preferenze migliora la generazione controfattuale multilingue

ai-technology · 2026-05-13

Un nuovo framework chiamato Macro utilizza l'ottimizzazione diretta delle preferenze per migliorare la generazione di spiegazioni controfattuali multilingue da parte di grandi modelli linguistici. Le spiegazioni controfattuali autogenerate (SCE) sono input leggermente alterati per invertire le previsioni di un LLM, fornendo informazioni sul suo comportamento opaco. Tuttavia, creare SCE in lingue diverse dall'inglese è stato difficile a causa di un conflitto tra validità e minimalità. Macro affronta questo problema utilizzando una funzione di punteggio composita per creare coppie di preferenze che quantificano questo compromesso. Esperimenti condotti su quattro LLM in sette lingue diverse dimostrano che Macro migliora la validità in media del 12,55% rispetto alla baseline del chain-of-thought, mantenendo la minimalità.

Fatti principali

1. Macro è un framework di allineamento delle preferenze per la generazione multilingue di SCE.
2. Applica l'ottimizzazione diretta delle preferenze (DPO).
3. Le SCE sono input minimamente modificati che invertono le previsioni degli LLM.
4. Viene affrontato il compromesso tra validità e minimalità.
5. Una funzione di punteggio composita costruisce coppie di preferenze.
6. Gli esperimenti hanno coinvolto quattro LLM e sette lingue.
7. La validità è migliorata in media del 12,55% rispetto alla baseline del chain-of-thought.
8. La minimalità non è stata degradata.

Entità

—

Fonti

arXiv cs.AI — 2026-05-13