ARTFEED — Contemporary Art Intelligence

PEO: Ottimizzazione Diretta dell'Embedding per il Jailbreak di LLM

ai-technology · 2026-04-30

I ricercatori propongono Prompt Embedding Optimization (PEO), un metodo di jailbreak white-box multi-round che ottimizza direttamente gli embedding dei token del prompt originale senza aggiungere token avversari. Contrariamente a precedenti preoccupazioni, gli embedding ottimizzati rimangono vicini agli originali, preservando la stringa visibile del prompt dopo la proiezione al token più vicino. L'analisi quantitativa mostra che le risposte del modello rimangono in tema per la maggior parte dei prompt. PEO combina l'ottimizzazione continua nello spazio degli embedding con obiettivi di continuazione strutturati.

Fatti principali

  • PEO è un metodo di jailbreak white-box multi-round.
  • Ottimizza direttamente gli embedding dei token del prompt originale.
  • Non vengono aggiunti token avversari.
  • Gli embedding ottimizzati rimangono vicini agli originali.
  • La stringa visibile del prompt viene preservata dopo la proiezione al token più vicino.
  • Le risposte del modello rimangono in tema per la grande maggioranza dei prompt.
  • PEO combina l'ottimizzazione continua nello spazio degli embedding con obiettivi di continuazione strutturati.
  • L'articolo è disponibile su arXiv (2604.24983).

Entità

Istituzioni

  • arXiv

Fonti