ARTFEED — Contemporary Art Intelligence

Contesti più lunghi degradano le prestazioni dei monitor AI su azioni pericolose

ai-technology · 2026-05-13

Un nuovo studio rivela che i modelli AI all'avanguardia non riescono a rilevare azioni pericolose più frequentemente in trascrizioni più lunghe. I ricercatori hanno scoperto che Opus 4.6, GPT 5.4 e Gemini 3.1 perdono azioni di codifica sottilmente pericolose da 2 a 30 volte più spesso dopo 800K token di attività benigna rispetto a contesti brevi. L'articolo, intitolato "Classifier Context Rot: Monitor Performance Degrades with Context Length", evidenzia una debolezza critica nel monitoraggio degli agenti per comportamenti pericolosi, poiché i benchmark precedenti raramente superavano i 100K token. Tecniche di prompting come promemoria periodici mitigano parzialmente il problema, ma le valutazioni che ignorano il degrado del contesto lungo probabilmente sovrastimano le prestazioni del monitor.

Fatti principali

  • I modelli all'avanguardia attuali non notano azioni pericolose più spesso in trascrizioni più lunghe.
  • Opus 4.6, GPT 5.4 e Gemini 3.1 perdono azioni pericolose da 2 a 30 volte più spesso dopo 800K token di attività benigna.
  • I precedenti benchmark di monitoraggio degli agenti raramente contengono trascrizioni più lunghe di 100K token.
  • Le debolezze possono essere parzialmente mitigate con tecniche di prompting come promemoria periodici.
  • Le valutazioni dei monitor che non considerano il degrado del contesto lungo probabilmente sovrastimano le prestazioni del monitor.
  • Lo studio si concentra sulla classificazione di trascrizioni che spesso superano i 500K token.
  • L'articolo è intitolato 'Classifier Context Rot: Monitor Performance Degrades with Context Length'.
  • La ricerca è stata pubblicata su arXiv.

Entità

Istituzioni

  • arXiv

Fonti