Il framework GradingAttack espone le vulnerabilità di valutazione degli LLM
Un nuovo framework chiamato GradingAttack è stato sviluppato dai ricercatori per identificare falle di sicurezza negli agenti di valutazione educativa che utilizzano la tecnologia LLM. Questo sistema impiega tecniche di attacco sia a livello di token che di prompt per alterare discretamente i risultati della valutazione. I test condotti su vari dataset indicano che entrambi i metodi compromettono con successo gli agenti di valutazione, con gli attacchi a livello di prompt che ottengono tassi di successo superiori. Questa ricerca sottolinea problemi significativi riguardanti l'affidabilità dei sistemi di valutazione basati sull'IA utilizzati in contesti pratici.
Fatti principali
- GradingAttack è un framework di attacco avversario a grana fine per agenti di valutazione basati su LLM.
- Utilizza strategie di attacco a livello di token e di prompt.
- Gli attacchi a livello di prompt raggiungono tassi di successo più elevati.
- Esperimenti condotti su più dataset.
- Il framework espone debolezze fondamentali nelle attuali implementazioni degli agenti.
- Gli LLM sono sempre più utilizzati per la valutazione automatica di risposte brevi (ASAG).
- Lo studio si concentra sulle vulnerabilità di sicurezza degli agenti di valutazione in ambiente reale.
- L'articolo è disponibile su arXiv con ID 2602.00979.
Entità
Istituzioni
- arXiv