ARTFEED — Contemporary Art Intelligence

SkillSafetyBench: Nuovo Benchmark Espone i Rischi per la Sicurezza degli Agenti dalle Abilità Riutilizzabili

ai-technology · 2026-05-13

È stato sviluppato un nuovo strumento chiamato SkillSafetyBench per valutare i problemi di sicurezza legati agli agenti basati su modelli linguistici di grandi dimensioni che utilizzano abilità riutilizzabili. Queste abilità integrano istruzioni procedurali con la capacità di manipolare file, strumenti, memoria e vari contesti di esecuzione, il che può introdurre vulnerabilità trascurate dai controlli di sicurezza esistenti. Il benchmark include 155 scenari avversari in 47 compiti distinti, coprendo sei categorie di rischio e 30 classificazioni di sicurezza, ciascuna supportata da un proprio verificatore basato su regole. I test con diversi agenti CLI hanno rivelato che attacchi non da parte dell'utente possono innescare azioni non sicure, evidenziando modalità di fallimento uniche che indicano la necessità di maggiori salvaguardie contro i rischi legati alle abilità.

Fatti principali

  • SkillSafetyBench è un nuovo benchmark per valutare la sicurezza degli agenti sotto superfici di attacco legate alle abilità.
  • Le abilità riutilizzabili sono un'interfaccia comune per estendere gli agenti LLM, ma introducono superfici di attacco.
  • Il benchmark include 155 casi avversari in 47 compiti, 6 domini di rischio e 30 categorie di sicurezza.
  • Ogni caso è valutato con un verificatore basato su regole specifico per il caso.
  • Gli esperimenti hanno utilizzato più agenti CLI e backend di modelli.
  • Attacchi localizzati non da parte dell'utente possono indurre costantemente comportamenti non sicuri.
  • I modelli di fallimento variano tra domini, metodi di attacco e abbinamenti scaffold-modello.
  • La ricerca è pubblicata su arXiv con ID 2605.12015.

Entità

Istituzioni

  • arXiv

Fonti