Il framework Proteus misura la perdita adattiva nelle competenze degli agenti LLM
Un recente studio ha presentato Proteus, un framework per operazioni red-team che si evolve autonomamente, progettato per valutare la perdita adattiva nelle capacità degli agenti LLM. Queste competenze degli agenti migliorano gli LLM incorporando istruzioni riutilizzabili, interfacce di strumenti e codice eseguibile, con utenti che spesso adottano competenze di terze parti da vari marketplace e repository. Gli autori sostengono che la valutazione dei rischi di implementazione non può basarsi esclusivamente su audit una tantum o red-team a livello di prompt, poiché gli attaccanti possono modificare iterativamente le competenze in base al feedback ricevuto durante gli audit e l'esecuzione. Proteus stabilisce un framework di attacco alle competenze a cinque dimensioni e impiega una pipeline completa audit-sandbox-oracolo per la valutazione dei candidati, fornendo approfondimenti strutturati per informare le mutazioni delle competenze. Questo framework mitiga il rischio posto da attaccanti con budget limitato che possono aggiustare una competenza fino a quando non supera con successo gli audit e infligge danni verificati in fase di esecuzione. La ricerca è accessibile su arXiv con l'identificatore 2605.11891.
Fatti principali
- Proteus è un framework red-team auto-evolutivo a scatola grigia.
- Misura la perdita adattiva nelle competenze degli agenti LLM.
- Le competenze degli agenti includono istruzioni, interfacce di strumenti e codice eseguibile.
- Gli utenti installano competenze di terze parti da marketplace e repository.
- Audit singoli e red-team a livello di prompt sono insufficienti.
- Gli attaccanti possono riscrivere iterativamente le competenze usando il feedback.
- Proteus esplora uno spazio di attacco alle competenze a cinque assi.
- Il framework utilizza una pipeline audit-sandbox-oracolo.
- L'articolo è su arXiv con ID 2605.11891.
Entità
Istituzioni
- arXiv