ROME e ARISE: Nuovi metodi per testare la sicurezza degli agenti LLM in scenari ingannevoli
I ricercatori hanno sviluppato ROME (Red-team Orchestrated Multi-agent Evolution), un nuovo framework volto a generare benchmark impegnativi che trasformano percorsi insicuri esistenti in intricati scenari di valutazione, mantenendo le loro etichette di rischio. Partendo da un insieme iniziale di 100 traiettorie insicure, ROME crea 300 situazioni complesse piene di sfumature contestuali e pericoli nascosti che complicano il processo decisionale. I loro risultati indicano che questi nuovi set di sfide ostacolano significativamente le valutazioni di sicurezza, in particolare in scenari che coinvolgono rischi nascosti, ponendo difficoltà anche per modelli avanzati. Inoltre, il team sta esplorando ARISE (Analogical Reasoning for Improved Safety Evaluation) per perfezionare ulteriormente i metodi di valutazione della sicurezza. Lo studio completo è disponibile su arXiv.
Fatti principali
- ROME è una pipeline controllata di costruzione di benchmark che riscrive traiettorie insicure in istanze di valutazione ingannevoli.
- ROME produce 300 istanze di sfida da 100 traiettorie sorgente insicure.
- Le istanze di sfida spaziano tra ambiguità contestuale, rischi impliciti e processi decisionali basati su scorciatoie.
- I casi di rischio nascosto degradano le prestazioni di giudizio di sicurezza anche per i modelli all'avanguardia.
- ARISE è un metodo di ragionamento analogico per migliorare la valutazione della sicurezza.
- I benchmark di sicurezza esistenti enfatizzano i rischi espliciti, potenzialmente sopravvalutando le capacità del modello.
- L'articolo è pubblicato su arXiv con ID 2605.03242.
- I sistemi agenti che utilizzano strumenti basati su LLM sono implementati in ambienti web, app, sistema operativo e transazionali.
Entità
Istituzioni
- arXiv