HARP: Misurare l'Amplificazione del Danno nei Sistemi LLM Multi-Agente

ai-technology · 2026-05-28

Un nuovo approccio noto come HARP (Harm Amplification through Role Perturbation) è stato sviluppato per esaminare come piccoli errori nei sistemi LLM multi-agente possano portare a danni estesi a livello di sistema. Questo metodo analizza esecuzioni pulite e alterate, catturando vari output, interazioni con strumenti, attività di memoria, eventi di guardia, log degli oracoli, latenza, costi dei token e processi decisionali. Caratterizza il danno locale come deviazioni dagli agenti previsti o canali corrotti, mentre il danno globale si riferisce a deviazioni sull'intera traccia. L'amplificazione del danno è definita come il rapporto tra danno globale e danno locale. Questa metrica migliora la comprensione dei tassi di successo degli attacchi illustrando come il danno si propaghi oltre il sito iniziale dell'attacco. I risultati sono pubblicati su arXiv:2605.27489.

Fatti principali

1. HARP sta per Harm Amplification through Role Perturbation.
2. È una metodologia trace-first per sistemi LLM multi-agente.
3. Confronta esecuzioni pulite e perturbate accoppiate.
4. Registra output specialistici, chiamate a strumenti, letture/scritture di memoria, eventi di guardia, log degli oracoli, latenza, costo dei token e decisioni.
5. Il danno locale è la deviazione dagli agenti target o canali corrotti.
6. Il danno globale è la deviazione sull'intera traccia.
7. L'amplificazione del danno è definita come H_globale/H_locale.
8. La metodologia integra il tasso di successo degli attacchi.

HARP: Misurare l'Amplificazione del Danno nei Sistemi LLM Multi-Agente

Fatti principali

Entità

Istituzioni

Fonti