D²-Monitor: Monitoraggio Dinamico della Sicurezza per Modelli Linguistici Diffusionali tramite Routing Basato sull'Esecitazione

ai-technology · 2026-05-26

È stato proposto un nuovo metodo di monitoraggio della sicurezza, D²-Monitor, per modelli linguistici diffusionali di grandi dimensioni (D-LLM), che generano testo attraverso un processo di denoising multi-step. A differenza dei LLM autoregressivi, i D-LLM espongono rappresentazioni nascoste intermedie che possono contenere informazioni rilevanti per la sicurezza. I ricercatori identificano 'l'esitazione di sicurezza'—stati nascosti intermedi che cadono ripetutamente vicino al confine decisionale del probe—come un segnale chiave che predice il fallimento del probe. D²-Monitor utilizza una strategia di routing a due livelli per allocare dinamicamente le risorse di monitoraggio basandosi su questo segnale di esitazione. Il lavoro è pubblicato su arXiv (paper 2605.25893).

Fatti principali

D²-Monitor è un metodo di monitoraggio dinamico della sicurezza per LLM diffusionali.
I LLM diffusionali generano testo tramite denoising multi-step, esponendo stati nascosti intermedi.
L'esitazione di sicurezza è definita come stati nascosti ripetutamente vicini al confine decisionale del probe.
Il numero di passi di esitazione predice efficacemente il fallimento del probe.
D²-Monitor utilizza un routing a due livelli per l'allocazione delle risorse.
Il paper è disponibile su arXiv con ID 2605.25893.
Il metodo è motivato da probe leggeri per un monitoraggio sempre attivo.
La ricerca colma una lacuna nel monitoraggio della sicurezza per i D-LLM.

D²-Monitor: Monitoraggio Dinamico della Sicurezza per Modelli Linguistici Diffusionali tramite Routing Basato sull'Esecitazione

Fatti principali

Entità

Istituzioni

Fonti