Steganografia basata sulla teoria delle decisioni per il monitoraggio degli LLM

ai-technology · 2026-04-30

Un recente articolo su arXiv presenta un modello basato sulla teoria delle decisioni volto a identificare la steganografia all'interno dei grandi modelli linguistici (LLM). Le definizioni tradizionali di steganografia richiedono una distribuzione di riferimento nota di segnali che non contengono informazioni nascoste, il che pone sfide per il ragionamento degli LLM. Gli autori propongono un metodo generalizzato di V-informazione che sfrutta la disparità di informazioni accessibili tra agenti in grado di decodificare messaggi nascosti e quelli che non lo sono. Questa disparità può essere dedotta da comportamenti osservabili, consentendo il rilevamento senza bisogno di una distribuzione di riferimento. La ricerca affronta il potenziale rischio che modelli disallineati utilizzino la steganografia per eludere il monitoraggio, fornendo un approccio sistematico per rilevare e misurare tali azioni.

Fatti principali

arXiv:2602.23163v3
I grandi modelli linguistici mostrano capacità steganografiche
Le definizioni classiche di steganografia richiedono una distribuzione di riferimento nota
La distribuzione di riferimento non è fattibile per il ragionamento degli LLM
Proposta di una visione della steganografia basata sulla teoria delle decisioni
La steganografia crea asimmetria nelle informazioni utilizzabili tra agenti
L'asimmetria può essere dedotta da azioni osservabili
La V-informazione generalizzata formalizza la prospettiva

Steganografia basata sulla teoria delle decisioni per il monitoraggio degli LLM

Fatti principali

Entità

Istituzioni

Fonti