ARTFEED — Contemporary Art Intelligence

Routing Convergente-Divergente: Orientare il Ragionamento Morale dei LLM

ai-technology · 2026-05-07

I ricercatori propongono il Routing Convergente-Divergente (CDR) per controllare il ragionamento morale nei modelli linguistici di grandi dimensioni al momento dell'inferenza. Il metodo identifica e modifica i punti di diramazione all'interno dei blocchi transformer dove i percorsi relativi ai quadri etici convergono e divergono, bloccando i rami non target per aumentare il ragionamento mirato. Per ottenere un controllo fine, adattano i Pattern Spaziali Comuni al flusso residuo, estraendo direzioni discriminanti tra i quadri utilitaristici e deontologici. La Calibrazione Doppia dei Logit applica quindi un aggiornamento con norma ℓ2 minima per spostare i residui all'interno di questo sottospazio. L'approccio preserva la competenza generale mentre orienta verso i quadri etici desiderati.

Fatti principali

  • 1. Il Routing Convergente-Divergente (CDR) è introdotto per l'orientamento al momento dell'inferenza del ragionamento morale nei LLM.
  • 2. CDR traccia e modifica i punti di diramazione minimi all'interno dei blocchi transformer.
  • 3. Bloccare i rami non target impedisce la propagazione a valle lasciando intatti i calcoli a monte.
  • 4. I Pattern Spaziali Comuni sono adattati al flusso residuo per estrarre direzioni discriminanti.
  • 5. La Calibrazione Doppia dei Logit è un aggiornamento in forma chiusa con norma ℓ2 minima.
  • 6. Il metodo si rivolge ai quadri etici utilitaristici e deontologici.
  • 7. La ricerca è pubblicata su arXiv con ID 2605.03609.
  • 8. L'approccio mira a preservare la competenza generale mentre orienta le preferenze etiche.

Entità

Istituzioni

  • arXiv

Fonti