ARTFEED — Contemporary Art Intelligence

Embedding di Input Ottimizzati per la Sicurezza in LLM Allineati

ai-technology · 2026-04-30

I ricercatori dimostrano che gli embedding delle parole in input possono essere ottimizzati per ridurre la dannosità semantica nei modelli linguistici allineati, che tipicamente producono una distribuzione bimodale rifiuto-rispetto. Utilizzando la stima del gradiente di ordine zero di un'API di moderazione del testo black-box, applicano la discesa del gradiente sugli embedding di input a livello sub-lessicale. Questo estende i lavori precedenti sul controllo dei modelli di text-completion pre-addestrati tramite embedding, che erano limitati alla riduzione della volgarità superficiale. Lo studio, pubblicato su arXiv (2604.26167), esplora l'allineamento alla sicurezza come passo successivo naturale.

Fatti principali

  • Articolo arXiv 2604.26167
  • Gli embedding delle parole in input fungono da variabili di controllo per guidare il comportamento del modello
  • I lavori precedenti erano dimostrati solo su modelli di text-completion pre-addestrati per ridurre la volgarità
  • I modelli allineati producono una distribuzione bimodale rifiuto-rispetto
  • L'approccio utilizza la stima del gradiente di ordine zero di un'API di moderazione del testo black-box
  • La discesa del gradiente è applicata sugli embedding di input a livello sub-lessicale
  • L'obiettivo è minimizzare la dannosità semantica delle risposte del modello allineato
  • Pubblicato su arXiv

Entità

Istituzioni

  • arXiv

Fonti