RAG-Pref: Allineamento LLM senza addestramento tramite generazione aumentata da recupero

ai-technology · 2026-05-13

Un nuovo metodo chiamato Retrieval Augmented Generation for Preference Alignment (RAG-Pref) migliora le barriere di rifiuto dei LLM contro attacchi agentivi senza il costo computazionale degli algoritmi di allineamento tradizionali. RAG-Pref è un algoritmo online senza addestramento che si basa su campioni preferiti e non preferiti durante l'inferenza per sfruttare informazioni contrastive. Se combinato con l'allineamento basato su addestramento offline, ottiene un miglioramento di oltre 3,7 volte nel rifiuto di attacchi agentivi. L'approccio è compatibile con pacchetti standard e colma il divario in cui gli algoritmi di allineamento all'avanguardia richiedono risorse significative ma rimangono vulnerabili ad attacchi recenti.

Fatti principali

RAG-Pref è un algoritmo di allineamento senza addestramento
Utilizza la generazione aumentata da recupero per l'allineamento delle preferenze
Si basa su campioni preferiti e non preferiti durante l'inferenza
Combinato con allineamento offline produce un miglioramento di oltre 3,7 volte nel rifiuto di attacchi agentivi
Affronta le richieste di risorse computazionali dell'allineamento tradizionale
Compatibile con pacchetti standard
Mira alle barriere di rifiuto contro attacchi agentivi
Introdotto in arXiv:2605.11217

RAG-Pref: Allineamento LLM senza addestramento tramite generazione aumentata da recupero

Fatti principali

Entità

Istituzioni

Fonti