Decadimento dei Vincoli negli Agenti LLM: I Divieti Falliscono in Contesti Lunghi

ai-technology · 2026-04-25

Uno studio recente pubblicato su arXiv (2604.20911) indica che gli agenti LLM in produzione subiscono un degrado disomogeneo delle linee guida comportamentali quando gestiscono contesti lunghi. In particolare, le istruzioni proibitive (come evitare la condivisione di credenziali) si indeboliscono significativamente, mentre le istruzioni direttive (come azioni obbligatorie) rimangono stabili. Questo effetto, identificato come Divergenza Sicurezza-Richiamo (SRD), è stato valutato attraverso uno studio causale a tre bracci che ha coinvolto 4.416 prove su 12 modelli di 8 fornitori a varie profondità di conversazione. Per Mistral Large 3, la conformità ai divieti è scesa dal 73% al turno 5 al 33% al turno 16, mentre la conformità alle direttive è rimasta al 100% (p < 10^-33). I controlli di padding con token corrispondenti hanno rivelato che il contenuto semantico dello schema contribuisce per il 62-100% all'effetto di diluizione. Reintrodurre i vincoli prima della Profondità di Turno Sicura (STD) specifica del modello può ripristinare la conformità senza bisogno di riaddestramento, sottolineando una vulnerabilità significativa negli agenti LLM a contesto lungo, poiché le misure di sicurezza in produzione si basano tipicamente su divieti che si indeboliscono sotto sforzo contestuale.

Fatti principali

Studio su arXiv:2604.20911
I vincoli di tipo proibitivo decadono in contesti lunghi
I vincoli di tipo commissivo persistono
Termine: Divergenza Sicurezza-Richiamo (SRD)
Studio causale a tre bracci con 4.416 prove
Testati 12 modelli e 8 fornitori
Sei profondità di conversazione
Mistral Large 3: conformità alle omissioni 73% al turno 5, 33% al turno 16
Conformità alle commissioni 100% per Mistral Large 3
p < 10^-33
Il contenuto semantico dello schema contribuisce per il 62-100% all'effetto di diluizione
Reiniettare i vincoli prima della Profondità di Turno Sicura (STD) ripristina la conformità

Decadimento dei Vincoli negli Agenti LLM: I Divieti Falliscono in Contesti Lunghi

Fatti principali

Entità

Istituzioni

Fonti