HARP: Misurare l'Amplificazione del Danno nei Sistemi LLM Multi-Agente
Un nuovo approccio noto come HARP (Harm Amplification through Role Perturbation) è stato sviluppato per esaminare come piccoli errori nei sistemi LLM multi-agente possano portare a danni estesi a livello di sistema. Questo metodo analizza esecuzioni pulite e alterate, catturando vari output, interazioni con strumenti, attività di memoria, eventi di guardia, log degli oracoli, latenza, costi dei token e processi decisionali. Caratterizza il danno locale come deviazioni dagli agenti previsti o canali corrotti, mentre il danno globale si riferisce a deviazioni sull'intera traccia. L'amplificazione del danno è definita come il rapporto tra danno globale e danno locale. Questa metrica migliora la comprensione dei tassi di successo degli attacchi illustrando come il danno si propaghi oltre il sito iniziale dell'attacco. I risultati sono pubblicati su arXiv:2605.27489.
Fatti principali
- 1. HARP sta per Harm Amplification through Role Perturbation.
- 2. È una metodologia trace-first per sistemi LLM multi-agente.
- 3. Confronta esecuzioni pulite e perturbate accoppiate.
- 4. Registra output specialistici, chiamate a strumenti, letture/scritture di memoria, eventi di guardia, log degli oracoli, latenza, costo dei token e decisioni.
- 5. Il danno locale è la deviazione dagli agenti target o canali corrotti.
- 6. Il danno globale è la deviazione sull'intera traccia.
- 7. L'amplificazione del danno è definita come H_globale/H_locale.
- 8. La metodologia integra il tasso di successo degli attacchi.
Entità
Istituzioni
- arXiv