RAG-Pref: Allineamento LLM senza addestramento tramite generazione aumentata da recupero
Un nuovo metodo chiamato Retrieval Augmented Generation for Preference Alignment (RAG-Pref) migliora le barriere di rifiuto dei LLM contro attacchi agentivi senza il costo computazionale degli algoritmi di allineamento tradizionali. RAG-Pref è un algoritmo online senza addestramento che si basa su campioni preferiti e non preferiti durante l'inferenza per sfruttare informazioni contrastive. Se combinato con l'allineamento basato su addestramento offline, ottiene un miglioramento di oltre 3,7 volte nel rifiuto di attacchi agentivi. L'approccio è compatibile con pacchetti standard e colma il divario in cui gli algoritmi di allineamento all'avanguardia richiedono risorse significative ma rimangono vulnerabili ad attacchi recenti.
Fatti principali
- RAG-Pref è un algoritmo di allineamento senza addestramento
- Utilizza la generazione aumentata da recupero per l'allineamento delle preferenze
- Si basa su campioni preferiti e non preferiti durante l'inferenza
- Combinato con allineamento offline produce un miglioramento di oltre 3,7 volte nel rifiuto di attacchi agentivi
- Affronta le richieste di risorse computazionali dell'allineamento tradizionale
- Compatibile con pacchetti standard
- Mira alle barriere di rifiuto contro attacchi agentivi
- Introdotto in arXiv:2605.11217
Entità
Istituzioni
- arXiv