ReasoningGuard: Sicurezza al Momento dell'Inferenza per Modelli di Ragionamento di Grandi Dimensioni
Un nuovo metodo chiamato ReasoningGuard mira a proteggere i Modelli di Ragionamento di Grandi Dimensioni (LRM) dalla generazione di contenuti dannosi durante il ragionamento. A differenza delle difese esistenti che richiedono costosi fine-tuning e conoscenze esperte, ReasoningGuard opera al momento dell'inferenza iniettando riflessioni orientate alla sicurezza—definite 'momenti aha di sicurezza'—nel processo di ragionamento del modello. Utilizza i meccanismi di attenzione interni del modello per identificare punti critici nel percorso di ragionamento e attiva controlli di sicurezza. Una strategia di campionamento scalabile seleziona quindi il percorso di ragionamento ottimale per garantire che sia i passaggi intermedi che le risposte finali siano sicuri. L'approccio aggiunge un costo di inferenza minimo ed è progettato per essere scalabile. L'articolo è disponibile su arXiv con ID 2508.04204.
Fatti principali
- ReasoningGuard è una salvaguardia al momento dell'inferenza per i Modelli di Ragionamento di Grandi Dimensioni (LRM).
- Inietta tempestivamente momenti aha di sicurezza durante il ragionamento per guidare i modelli verso output innocui.
- Il metodo sfrutta i meccanismi di attenzione interni per identificare punti chiave nel ragionamento.
- Una strategia di campionamento scalabile seleziona il percorso di ragionamento ottimale durante la decodifica.
- Gli attuali metodi di difesa si basano su costosi fine-tuning e conoscenze esperte.
- Gli LRM rimangono vulnerabili alla generazione di contenuti dannosi, specialmente nei passaggi di ragionamento intermedi e finali.
- ReasoningGuard aggiunge un costo di inferenza minimo.
- L'articolo è arXiv:2508.04204v2.
Entità
Istituzioni
- arXiv