Allineamento del Ragionamento Basato su Critiche per la Personalizzazione degli LLM
Un nuovo approccio per allineare i Grandi Modelli Linguistici (LLM) alle preferenze degli utenti, chiamato Allineamento del Ragionamento Basato su Critiche (CDRA), ridefinisce l'allineamento da corrispondenza di ricompensa a ragionamento strutturato. Introduce il benchmark DeepPref, un dataset di 3000 coppie preferenza-query su 20 argomenti, generato da un consiglio cognitivo simulato multi-sfaccettato che produce catene di ragionamento annotate con critiche. Il metodo affronta la duplice sfida di inferire le preferenze implicite profonde degli utenti (obiettivi non dichiarati, contesto semantico, tolleranze al rischio) e di eseguire un ragionamento difensivo in scenari reali ambigui. Gli attuali metodi di allineamento producono risposte superficiali e fragili a causa di questo divario cognitivo. Il lavoro è pubblicato su arXiv con identificatore 2510.11194.
Fatti principali
- CDRA ridefinisce l'allineamento come un processo di ragionamento strutturato.
- Il benchmark DeepPref contiene 3000 coppie preferenza-query.
- Le coppie coprono 20 argomenti.
- I dati sono curati da un consiglio cognitivo simulato multi-sfaccettato.
- Il consiglio produce catene di ragionamento annotate con critiche.
- Il metodo affronta l'inferenza delle preferenze implicite profonde.
- Il metodo include il ragionamento difensivo per l'ambiguità.
- Pubblicato su arXiv con ID 2510.11194.
Entità
Istituzioni
- arXiv