Embedding di Input Ottimizzati per la Sicurezza in LLM Allineati

ai-technology · 2026-04-30

I ricercatori dimostrano che gli embedding delle parole in input possono essere ottimizzati per ridurre la dannosità semantica nei modelli linguistici allineati, che tipicamente producono una distribuzione bimodale rifiuto-rispetto. Utilizzando la stima del gradiente di ordine zero di un'API di moderazione del testo black-box, applicano la discesa del gradiente sugli embedding di input a livello sub-lessicale. Questo estende i lavori precedenti sul controllo dei modelli di text-completion pre-addestrati tramite embedding, che erano limitati alla riduzione della volgarità superficiale. Lo studio, pubblicato su arXiv (2604.26167), esplora l'allineamento alla sicurezza come passo successivo naturale.

Fatti principali

Articolo arXiv 2604.26167
Gli embedding delle parole in input fungono da variabili di controllo per guidare il comportamento del modello
I lavori precedenti erano dimostrati solo su modelli di text-completion pre-addestrati per ridurre la volgarità
I modelli allineati producono una distribuzione bimodale rifiuto-rispetto
L'approccio utilizza la stima del gradiente di ordine zero di un'API di moderazione del testo black-box
La discesa del gradiente è applicata sugli embedding di input a livello sub-lessicale
L'obiettivo è minimizzare la dannosità semantica delle risposte del modello allineato
Pubblicato su arXiv

Embedding di Input Ottimizzati per la Sicurezza in LLM Allineati

Fatti principali

Entità

Istituzioni

Fonti