Embedding di Input Ottimizzati per la Sicurezza in LLM Allineati
I ricercatori dimostrano che gli embedding delle parole in input possono essere ottimizzati per ridurre la dannosità semantica nei modelli linguistici allineati, che tipicamente producono una distribuzione bimodale rifiuto-rispetto. Utilizzando la stima del gradiente di ordine zero di un'API di moderazione del testo black-box, applicano la discesa del gradiente sugli embedding di input a livello sub-lessicale. Questo estende i lavori precedenti sul controllo dei modelli di text-completion pre-addestrati tramite embedding, che erano limitati alla riduzione della volgarità superficiale. Lo studio, pubblicato su arXiv (2604.26167), esplora l'allineamento alla sicurezza come passo successivo naturale.
Fatti principali
- Articolo arXiv 2604.26167
- Gli embedding delle parole in input fungono da variabili di controllo per guidare il comportamento del modello
- I lavori precedenti erano dimostrati solo su modelli di text-completion pre-addestrati per ridurre la volgarità
- I modelli allineati producono una distribuzione bimodale rifiuto-rispetto
- L'approccio utilizza la stima del gradiente di ordine zero di un'API di moderazione del testo black-box
- La discesa del gradiente è applicata sugli embedding di input a livello sub-lessicale
- L'obiettivo è minimizzare la dannosità semantica delle risposte del modello allineato
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv