Contesti più lunghi degradano le prestazioni dei monitor AI su azioni pericolose
Un nuovo studio rivela che i modelli AI all'avanguardia non riescono a rilevare azioni pericolose più frequentemente in trascrizioni più lunghe. I ricercatori hanno scoperto che Opus 4.6, GPT 5.4 e Gemini 3.1 perdono azioni di codifica sottilmente pericolose da 2 a 30 volte più spesso dopo 800K token di attività benigna rispetto a contesti brevi. L'articolo, intitolato "Classifier Context Rot: Monitor Performance Degrades with Context Length", evidenzia una debolezza critica nel monitoraggio degli agenti per comportamenti pericolosi, poiché i benchmark precedenti raramente superavano i 100K token. Tecniche di prompting come promemoria periodici mitigano parzialmente il problema, ma le valutazioni che ignorano il degrado del contesto lungo probabilmente sovrastimano le prestazioni del monitor.
Fatti principali
- I modelli all'avanguardia attuali non notano azioni pericolose più spesso in trascrizioni più lunghe.
- Opus 4.6, GPT 5.4 e Gemini 3.1 perdono azioni pericolose da 2 a 30 volte più spesso dopo 800K token di attività benigna.
- I precedenti benchmark di monitoraggio degli agenti raramente contengono trascrizioni più lunghe di 100K token.
- Le debolezze possono essere parzialmente mitigate con tecniche di prompting come promemoria periodici.
- Le valutazioni dei monitor che non considerano il degrado del contesto lungo probabilmente sovrastimano le prestazioni del monitor.
- Lo studio si concentra sulla classificazione di trascrizioni che spesso superano i 500K token.
- L'articolo è intitolato 'Classifier Context Rot: Monitor Performance Degrades with Context Length'.
- La ricerca è stata pubblicata su arXiv.
Entità
Istituzioni
- arXiv