ARTFEED — Contemporary Art Intelligence

Il benchmark AgentHijack testa la robustezza degli agenti MLLM

ai-technology · 2026-05-26

Un nuovo benchmark chiamato AgentHijack valuta la robustezza degli agenti per uso computer basati su modelli linguistici multimodali di grandi dimensioni (MLLM) contro comuni corruzioni ambientali. Il benchmark introduce nove corruzioni configurabili come pop-up, cambi di risoluzione e applicazioni concorrenti che interrompono l'esecuzione dell'agente senza intento avversario. I test su attività desktop rivelano che anche corruzioni minori causano un significativo degrado delle prestazioni, evidenziando la fragilità degli agenti attuali e la necessità di una valutazione della robustezza. La ricerca è pubblicata su arXiv con numero 2605.25707.

Fatti principali

  • AgentHijack è un benchmark per la robustezza degli agenti per uso computer.
  • Si rivolge ad agenti basati su MLLM.
  • Vengono introdotte nove corruzioni comuni.
  • Le corruzioni includono pop-up, cambi di risoluzione e app concorrenti.
  • Corruzioni minori causano cali sostanziali delle prestazioni.
  • Il benchmark sottolinea la fragilità degli agenti.
  • L'articolo è su arXiv: 2605.25707.
  • La ricerca evidenzia la necessità di una valutazione della robustezza.

Entità

Istituzioni

  • arXiv

Fonti