Contesti più lunghi degradano le prestazioni dei monitor AI su azioni pericolose

ai-technology · 2026-05-13

Un nuovo studio rivela che i modelli AI all'avanguardia non riescono a rilevare azioni pericolose più frequentemente in trascrizioni più lunghe. I ricercatori hanno scoperto che Opus 4.6, GPT 5.4 e Gemini 3.1 perdono azioni di codifica sottilmente pericolose da 2 a 30 volte più spesso dopo 800K token di attività benigna rispetto a contesti brevi. L'articolo, intitolato "Classifier Context Rot: Monitor Performance Degrades with Context Length", evidenzia una debolezza critica nel monitoraggio degli agenti per comportamenti pericolosi, poiché i benchmark precedenti raramente superavano i 100K token. Tecniche di prompting come promemoria periodici mitigano parzialmente il problema, ma le valutazioni che ignorano il degrado del contesto lungo probabilmente sovrastimano le prestazioni del monitor.

Fatti principali

I modelli all'avanguardia attuali non notano azioni pericolose più spesso in trascrizioni più lunghe.
Opus 4.6, GPT 5.4 e Gemini 3.1 perdono azioni pericolose da 2 a 30 volte più spesso dopo 800K token di attività benigna.
I precedenti benchmark di monitoraggio degli agenti raramente contengono trascrizioni più lunghe di 100K token.
Le debolezze possono essere parzialmente mitigate con tecniche di prompting come promemoria periodici.
Le valutazioni dei monitor che non considerano il degrado del contesto lungo probabilmente sovrastimano le prestazioni del monitor.
Lo studio si concentra sulla classificazione di trascrizioni che spesso superano i 500K token.
L'articolo è intitolato 'Classifier Context Rot: Monitor Performance Degrades with Context Length'.
La ricerca è stata pubblicata su arXiv.

Contesti più lunghi degradano le prestazioni dei monitor AI su azioni pericolose

Fatti principali

Entità

Istituzioni

Fonti