ARTFEED — Contemporary Art Intelligence

Reflector: un framework a due stadi per la difesa dei LLM dal jailbreak

ai-technology · 2026-05-22

Un nuovo framework chiamato Reflector mira a difendere i modelli linguistici di grandi dimensioni (LLM) dagli attacchi di jailbreak indiretti. Il sistema utilizza un processo a due stadi: prima, la generazione guidata dall'insegnante crea dati di riflessione di alta qualità per il fine-tuning supervisionato (SFT), poi l'apprendimento per rinforzo (RL) con supervisione basata sui risultati e sulla validità delle ricompense instilla l'autoriflessione autonoma. I risultati empirici mostrano tassi di successo della difesa (DSR) superiori al 90% contro attacchi indiretti complessi, con una robusta generalizzazione in diversi scenari di minaccia. Il framework affronta le vulnerabilità nei LLM che eludono l'allineamento superficiale della sicurezza sfruttando i processi interni di generazione. L'articolo è disponibile su arXiv (2605.20654).

Fatti principali

  • Reflector è un framework a due stadi per la difesa dei LLM dal jailbreak
  • Il primo stadio utilizza la generazione guidata dall'insegnante per SFT
  • Il secondo stadio utilizza RL con supervisione basata sui risultati e sulla validità delle ricompense
  • Raggiunge DSR superiori al 90% contro attacchi indiretti
  • Generalizza robustamente in diversi scenari di minaccia
  • Affronta le vulnerabilità nel processo di generazione interna dei LLM
  • Articolo disponibile su arXiv: 2605.20654
  • Pubblicato come preprint arXiv

Entità

Istituzioni

  • arXiv

Fonti