Attacchi di spiegazione avversaria manipolano la fiducia umana nell'IA
Una nuova forma di attacco, nota come attacchi di spiegazione avversaria (AEA), è stata introdotta dai ricercatori, consentendo agli aggressori di alterare le spiegazioni prodotte dai LLM per influenzare la fiducia umana in risultati errati. Questa tattica sfrutta una nuova vulnerabilità a livello cognitivo, in particolare l'interazione tra sistemi di IA e utenti. La metrica del gap di miscalibrazione della fiducia misura la disparità nei livelli di fiducia umana tra spiegazioni non minacciose e avversarie. Questa ricerca sottolinea i potenziali pericoli comportamentali, rivelando come spiegazioni strategicamente inquadrate possano erodere la fiducia nel processo decisionale supportato dall'IA.
Fatti principali
- Gli attacchi di spiegazione avversaria (AEA) manipolano le spiegazioni generate dai LLM per modulare la fiducia umana in output errati.
- La superficie di attacco è il canale di comunicazione tra l'IA e i suoi utenti.
- La metrica del gap di miscalibrazione della fiducia cattura la differenza nella fiducia umana tra spiegazioni benigne e avversarie.
- Lo studio evidenzia i rischi comportamentali di un inquadramento persuasivo delle spiegazioni.
Entità
—