Attacchi di spiegazione avversaria manipolano la fiducia umana nell'IA

ai-technology · 2026-05-18

Una nuova forma di attacco, nota come attacchi di spiegazione avversaria (AEA), è stata introdotta dai ricercatori, consentendo agli aggressori di alterare le spiegazioni prodotte dai LLM per influenzare la fiducia umana in risultati errati. Questa tattica sfrutta una nuova vulnerabilità a livello cognitivo, in particolare l'interazione tra sistemi di IA e utenti. La metrica del gap di miscalibrazione della fiducia misura la disparità nei livelli di fiducia umana tra spiegazioni non minacciose e avversarie. Questa ricerca sottolinea i potenziali pericoli comportamentali, rivelando come spiegazioni strategicamente inquadrate possano erodere la fiducia nel processo decisionale supportato dall'IA.

Fatti principali

Gli attacchi di spiegazione avversaria (AEA) manipolano le spiegazioni generate dai LLM per modulare la fiducia umana in output errati.
La superficie di attacco è il canale di comunicazione tra l'IA e i suoi utenti.
La metrica del gap di miscalibrazione della fiducia cattura la differenza nella fiducia umana tra spiegazioni benigne e avversarie.
Lo studio evidenzia i rischi comportamentali di un inquadramento persuasivo delle spiegazioni.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18