Routing Convergente-Divergente: Orientare il Ragionamento Morale dei LLM
I ricercatori propongono il Routing Convergente-Divergente (CDR) per controllare il ragionamento morale nei modelli linguistici di grandi dimensioni al momento dell'inferenza. Il metodo identifica e modifica i punti di diramazione all'interno dei blocchi transformer dove i percorsi relativi ai quadri etici convergono e divergono, bloccando i rami non target per aumentare il ragionamento mirato. Per ottenere un controllo fine, adattano i Pattern Spaziali Comuni al flusso residuo, estraendo direzioni discriminanti tra i quadri utilitaristici e deontologici. La Calibrazione Doppia dei Logit applica quindi un aggiornamento con norma ℓ2 minima per spostare i residui all'interno di questo sottospazio. L'approccio preserva la competenza generale mentre orienta verso i quadri etici desiderati.
Fatti principali
- 1. Il Routing Convergente-Divergente (CDR) è introdotto per l'orientamento al momento dell'inferenza del ragionamento morale nei LLM.
- 2. CDR traccia e modifica i punti di diramazione minimi all'interno dei blocchi transformer.
- 3. Bloccare i rami non target impedisce la propagazione a valle lasciando intatti i calcoli a monte.
- 4. I Pattern Spaziali Comuni sono adattati al flusso residuo per estrarre direzioni discriminanti.
- 5. La Calibrazione Doppia dei Logit è un aggiornamento in forma chiusa con norma ℓ2 minima.
- 6. Il metodo si rivolge ai quadri etici utilitaristici e deontologici.
- 7. La ricerca è pubblicata su arXiv con ID 2605.03609.
- 8. L'approccio mira a preservare la competenza generale mentre orienta le preferenze etiche.
Entità
Istituzioni
- arXiv