Ottimizzazione delle Politiche di Attrito: Un Nuovo Quadro per l'Allineamento dei LLM

ai-technology · 2026-04-30

Un nuovo quadro chiamato Ottimizzazione delle Politiche di Attrito (FPO) è stato introdotto dai ricercatori per addestrare modelli linguistici a gestire rischi sia epistemici che normativi attraverso azioni di controllo specifiche come chiarimento, verifica, contestazione, reindirizzamento e rifiuto. A differenza delle tecniche di allineamento tradizionali che si concentrano sull'ottimizzazione di preferenze superficiali o utilità del compito, FPO affronta l'allineamento come una sfida di controllo epistemico sensibile al rischio, dando priorità agli interventi in base al loro impatto previsto sulla qualità epistemica a valle piuttosto che su ricompense immediate. Questo quadro presenta una classificazione degli interventi di attrito, un funzionale di attrito strutturato per affrontare le modalità di fallimento dell'allineamento e un insieme coeso di metodi FPO, tra cui il reward shaping e l'abbinamento delle preferenze. Lo studio è disponibile su arXiv con l'identificatore 2604.25136.

Fatti principali

FPO regola cosa, quando e come intervenire negli output dei LLM.
Gli interventi includono chiarimento, verifica, contestazione, reindirizzamento e rifiuto.
L'allineamento è formalizzato come un problema di controllo epistemico sensibile al rischio.
Gli interventi sono selezionati in base all'effetto atteso sulla qualità epistemica a valle.
Viene introdotta una tassonomia degli interventi di attrito.
Un funzionale di attrito strutturato operazionalizza le modalità di fallimento dell'allineamento.
I metodi FPO includono reward shaping e abbinamento delle preferenze.
L'articolo è su arXiv con ID 2604.25136.

Ottimizzazione delle Politiche di Attrito: Un Nuovo Quadro per l'Allineamento dei LLM

Fatti principali

Entità

Istituzioni

Fonti