ARTFEED — Contemporary Art Intelligence

RAG-Pref: Allineamento LLM senza addestramento tramite generazione aumentata da recupero

ai-technology · 2026-05-13

Un nuovo metodo chiamato Retrieval Augmented Generation for Preference Alignment (RAG-Pref) migliora le barriere di rifiuto dei LLM contro attacchi agentivi senza il costo computazionale degli algoritmi di allineamento tradizionali. RAG-Pref è un algoritmo online senza addestramento che si basa su campioni preferiti e non preferiti durante l'inferenza per sfruttare informazioni contrastive. Se combinato con l'allineamento basato su addestramento offline, ottiene un miglioramento di oltre 3,7 volte nel rifiuto di attacchi agentivi. L'approccio è compatibile con pacchetti standard e colma il divario in cui gli algoritmi di allineamento all'avanguardia richiedono risorse significative ma rimangono vulnerabili ad attacchi recenti.

Fatti principali

  • RAG-Pref è un algoritmo di allineamento senza addestramento
  • Utilizza la generazione aumentata da recupero per l'allineamento delle preferenze
  • Si basa su campioni preferiti e non preferiti durante l'inferenza
  • Combinato con allineamento offline produce un miglioramento di oltre 3,7 volte nel rifiuto di attacchi agentivi
  • Affronta le richieste di risorse computazionali dell'allineamento tradizionale
  • Compatibile con pacchetti standard
  • Mira alle barriere di rifiuto contro attacchi agentivi
  • Introdotto in arXiv:2605.11217

Entità

Istituzioni

  • arXiv

Fonti