WARDEN: Addestramento Avversario Robusto dal Punto di Vista Distribuzionale per LLM
È stato introdotto un nuovo framework di addestramento avversario chiamato WARDEN per migliorare la resilienza dei modelli linguistici di grandi dimensioni (LLM) contro prompt avversari. Nonostante i progressi nell'allineamento e nella sicurezza, gli LLM affrontano ancora minacce da nuovi metodi di attacco. Le attuali tecniche di addestramento avversario tendono ad essere costose in termini computazionali e difficili da scalare. Metodi recenti come CAT e CAPO hanno affrontato questo problema applicando perturbazioni basate sul gradiente nello spazio di embedding. WARDEN migliora questo approccio regolando dinamicamente il peso degli esempi avversari utilizzando un insieme di ambiguità f-divergenza attorno alla distribuzione di training empirica, concentrandosi sull'ottimizzazione della perdita avversaria nel caso peggiore all'interno di una sfera di divergenza. Questo framework mira a offrire maggiore efficienza e scalabilità nella robustezza.
Fatti principali
- WARDEN è un framework di addestramento avversario robusto dal punto di vista distribuzionale per LLM.
- Ripondera dinamicamente gli esempi avversari utilizzando un insieme di ambiguità f-divergenza.
- Il metodo ottimizza la perdita avversaria nel caso peggiore all'interno di una sfera di divergenza.
- Approcci esistenti come CAT e CAPO utilizzano perturbazioni basate sul gradiente nello spazio di embedding.
- Gli LLM rimangono vulnerabili ai prompt avversari nonostante i progressi nell'allineamento e nella sicurezza.
- L'addestramento avversario può migliorare la robustezza ma è computazionalmente costoso.
- Il framework è progettato per essere più efficiente e scalabile.
- L'articolo è disponibile su arXiv con ID 2605.05415.
Entità
Istituzioni
- arXiv