Routing Convergente-Divergente: Orientare il Ragionamento Morale dei LLM

ai-technology · 2026-05-07

I ricercatori propongono il Routing Convergente-Divergente (CDR) per controllare il ragionamento morale nei modelli linguistici di grandi dimensioni al momento dell'inferenza. Il metodo identifica e modifica i punti di diramazione all'interno dei blocchi transformer dove i percorsi relativi ai quadri etici convergono e divergono, bloccando i rami non target per aumentare il ragionamento mirato. Per ottenere un controllo fine, adattano i Pattern Spaziali Comuni al flusso residuo, estraendo direzioni discriminanti tra i quadri utilitaristici e deontologici. La Calibrazione Doppia dei Logit applica quindi un aggiornamento con norma ℓ2 minima per spostare i residui all'interno di questo sottospazio. L'approccio preserva la competenza generale mentre orienta verso i quadri etici desiderati.

Fatti principali

1. Il Routing Convergente-Divergente (CDR) è introdotto per l'orientamento al momento dell'inferenza del ragionamento morale nei LLM.
2. CDR traccia e modifica i punti di diramazione minimi all'interno dei blocchi transformer.
3. Bloccare i rami non target impedisce la propagazione a valle lasciando intatti i calcoli a monte.
4. I Pattern Spaziali Comuni sono adattati al flusso residuo per estrarre direzioni discriminanti.
5. La Calibrazione Doppia dei Logit è un aggiornamento in forma chiusa con norma ℓ2 minima.
6. Il metodo si rivolge ai quadri etici utilitaristici e deontologici.
7. La ricerca è pubblicata su arXiv con ID 2605.03609.
8. L'approccio mira a preservare la competenza generale mentre orienta le preferenze etiche.

Routing Convergente-Divergente: Orientare il Ragionamento Morale dei LLM

Fatti principali

Entità

Istituzioni

Fonti