Steganografia basata sulla teoria delle decisioni per il monitoraggio degli LLM
Un recente articolo su arXiv presenta un modello basato sulla teoria delle decisioni volto a identificare la steganografia all'interno dei grandi modelli linguistici (LLM). Le definizioni tradizionali di steganografia richiedono una distribuzione di riferimento nota di segnali che non contengono informazioni nascoste, il che pone sfide per il ragionamento degli LLM. Gli autori propongono un metodo generalizzato di V-informazione che sfrutta la disparità di informazioni accessibili tra agenti in grado di decodificare messaggi nascosti e quelli che non lo sono. Questa disparità può essere dedotta da comportamenti osservabili, consentendo il rilevamento senza bisogno di una distribuzione di riferimento. La ricerca affronta il potenziale rischio che modelli disallineati utilizzino la steganografia per eludere il monitoraggio, fornendo un approccio sistematico per rilevare e misurare tali azioni.
Fatti principali
- arXiv:2602.23163v3
- I grandi modelli linguistici mostrano capacità steganografiche
- Le definizioni classiche di steganografia richiedono una distribuzione di riferimento nota
- La distribuzione di riferimento non è fattibile per il ragionamento degli LLM
- Proposta di una visione della steganografia basata sulla teoria delle decisioni
- La steganografia crea asimmetria nelle informazioni utilizzabili tra agenti
- L'asimmetria può essere dedotta da azioni osservabili
- La V-informazione generalizzata formalizza la prospettiva
Entità
Istituzioni
- arXiv