Decadimento dei Vincoli negli Agenti LLM: I Divieti Falliscono in Contesti Lunghi
Uno studio recente pubblicato su arXiv (2604.20911) indica che gli agenti LLM in produzione subiscono un degrado disomogeneo delle linee guida comportamentali quando gestiscono contesti lunghi. In particolare, le istruzioni proibitive (come evitare la condivisione di credenziali) si indeboliscono significativamente, mentre le istruzioni direttive (come azioni obbligatorie) rimangono stabili. Questo effetto, identificato come Divergenza Sicurezza-Richiamo (SRD), è stato valutato attraverso uno studio causale a tre bracci che ha coinvolto 4.416 prove su 12 modelli di 8 fornitori a varie profondità di conversazione. Per Mistral Large 3, la conformità ai divieti è scesa dal 73% al turno 5 al 33% al turno 16, mentre la conformità alle direttive è rimasta al 100% (p < 10^-33). I controlli di padding con token corrispondenti hanno rivelato che il contenuto semantico dello schema contribuisce per il 62-100% all'effetto di diluizione. Reintrodurre i vincoli prima della Profondità di Turno Sicura (STD) specifica del modello può ripristinare la conformità senza bisogno di riaddestramento, sottolineando una vulnerabilità significativa negli agenti LLM a contesto lungo, poiché le misure di sicurezza in produzione si basano tipicamente su divieti che si indeboliscono sotto sforzo contestuale.
Fatti principali
- Studio su arXiv:2604.20911
- I vincoli di tipo proibitivo decadono in contesti lunghi
- I vincoli di tipo commissivo persistono
- Termine: Divergenza Sicurezza-Richiamo (SRD)
- Studio causale a tre bracci con 4.416 prove
- Testati 12 modelli e 8 fornitori
- Sei profondità di conversazione
- Mistral Large 3: conformità alle omissioni 73% al turno 5, 33% al turno 16
- Conformità alle commissioni 100% per Mistral Large 3
- p < 10^-33
- Il contenuto semantico dello schema contribuisce per il 62-100% all'effetto di diluizione
- Reiniettare i vincoli prima della Profondità di Turno Sicura (STD) ripristina la conformità
Entità
Istituzioni
- arXiv