WARDEN: Addestramento Avversario Robusto dal Punto di Vista Distribuzionale per LLM

ai-technology · 2026-05-09

È stato introdotto un nuovo framework di addestramento avversario chiamato WARDEN per migliorare la resilienza dei modelli linguistici di grandi dimensioni (LLM) contro prompt avversari. Nonostante i progressi nell'allineamento e nella sicurezza, gli LLM affrontano ancora minacce da nuovi metodi di attacco. Le attuali tecniche di addestramento avversario tendono ad essere costose in termini computazionali e difficili da scalare. Metodi recenti come CAT e CAPO hanno affrontato questo problema applicando perturbazioni basate sul gradiente nello spazio di embedding. WARDEN migliora questo approccio regolando dinamicamente il peso degli esempi avversari utilizzando un insieme di ambiguità f-divergenza attorno alla distribuzione di training empirica, concentrandosi sull'ottimizzazione della perdita avversaria nel caso peggiore all'interno di una sfera di divergenza. Questo framework mira a offrire maggiore efficienza e scalabilità nella robustezza.

Fatti principali

WARDEN è un framework di addestramento avversario robusto dal punto di vista distribuzionale per LLM.
Ripondera dinamicamente gli esempi avversari utilizzando un insieme di ambiguità f-divergenza.
Il metodo ottimizza la perdita avversaria nel caso peggiore all'interno di una sfera di divergenza.
Approcci esistenti come CAT e CAPO utilizzano perturbazioni basate sul gradiente nello spazio di embedding.
Gli LLM rimangono vulnerabili ai prompt avversari nonostante i progressi nell'allineamento e nella sicurezza.
L'addestramento avversario può migliorare la robustezza ma è computazionalmente costoso.
Il framework è progettato per essere più efficiente e scalabile.
L'articolo è disponibile su arXiv con ID 2605.05415.

WARDEN: Addestramento Avversario Robusto dal Punto di Vista Distribuzionale per LLM

Fatti principali

Entità

Istituzioni

Fonti