SONAR: Un Framework per la Sanificazione di Istruzioni Maligne nei LLM
È stato lanciato un nuovo sistema chiamato SONAR per affrontare problemi di sicurezza nei modelli linguistici di grandi dimensioni (LLM) che dipendono da fonti testuali esterne, inclusa la generazione aumentata da recupero e gli agenti integrati con strumenti. Questi modelli sono vulnerabili ad attacchi in cui gli avversari introducono istruzioni dannose che possono portare ad azioni impreviste. Le attuali misure protettive, come i rilevatori basati su LLM e i metodi di addestramento, spesso cadono vittime di attacchi di ottimizzazione o faticano con nuove distribuzioni di dati. SONAR funge da strumento di sanificazione dei prompt, utilizzando metriche di inferenza del linguaggio naturale per identificare ed eliminare contenuti iniettati. Crea un grafo relazionale a livello di frase da query utente e dati esterni, impiegando punteggi di implicazione e contraddizione come pesi per trovare frasi che si discostano dal compito principale. Le frasi anomale vengono potate tramite metodi basati sulla connettività. Questo framework è descritto in un articolo su arXiv, identificatore 2605.01078, classificato come annuncio di tipo incrociato, con l'obiettivo di rafforzare la sicurezza dei LLM enfatizzando le strutture relazionali delle frasi rispetto alla mera rilevazione o addestramento.
Fatti principali
- SONAR è un framework di sanificazione dei prompt per LLM.
- Affronta le vulnerabilità di sicurezza derivanti da fonti testuali esterne.
- Utilizza metriche di inferenza del linguaggio naturale per rilevare istruzioni maligne.
- Costruisce un grafo relazionale a livello di frase con punteggi di implicazione e contraddizione.
- Impiega la potatura basata sulla connettività per rimuovere frasi devianti.
- Pubblicato su arXiv con ID 2605.01078.
- Si rivolge alla generazione aumentata da recupero e agli agenti LLM integrati con strumenti.
- Mira a superare i limiti dei rilevatori basati su LLM e dei metodi basati sull'addestramento.
Entità
Istituzioni
- arXiv