D²-Monitor: Monitoraggio Dinamico della Sicurezza per Modelli Linguistici Diffusionali tramite Routing Basato sull'Esecitazione
È stato proposto un nuovo metodo di monitoraggio della sicurezza, D²-Monitor, per modelli linguistici diffusionali di grandi dimensioni (D-LLM), che generano testo attraverso un processo di denoising multi-step. A differenza dei LLM autoregressivi, i D-LLM espongono rappresentazioni nascoste intermedie che possono contenere informazioni rilevanti per la sicurezza. I ricercatori identificano 'l'esitazione di sicurezza'—stati nascosti intermedi che cadono ripetutamente vicino al confine decisionale del probe—come un segnale chiave che predice il fallimento del probe. D²-Monitor utilizza una strategia di routing a due livelli per allocare dinamicamente le risorse di monitoraggio basandosi su questo segnale di esitazione. Il lavoro è pubblicato su arXiv (paper 2605.25893).
Fatti principali
- D²-Monitor è un metodo di monitoraggio dinamico della sicurezza per LLM diffusionali.
- I LLM diffusionali generano testo tramite denoising multi-step, esponendo stati nascosti intermedi.
- L'esitazione di sicurezza è definita come stati nascosti ripetutamente vicini al confine decisionale del probe.
- Il numero di passi di esitazione predice efficacemente il fallimento del probe.
- D²-Monitor utilizza un routing a due livelli per l'allocazione delle risorse.
- Il paper è disponibile su arXiv con ID 2605.25893.
- Il metodo è motivato da probe leggeri per un monitoraggio sempre attivo.
- La ricerca colma una lacuna nel monitoraggio della sicurezza per i D-LLM.
Entità
Istituzioni
- arXiv