ReasoningGuard: Sicurezza al Momento dell'Inferenza per Modelli di Ragionamento di Grandi Dimensioni

ai-technology · 2026-05-07

Un nuovo metodo chiamato ReasoningGuard mira a proteggere i Modelli di Ragionamento di Grandi Dimensioni (LRM) dalla generazione di contenuti dannosi durante il ragionamento. A differenza delle difese esistenti che richiedono costosi fine-tuning e conoscenze esperte, ReasoningGuard opera al momento dell'inferenza iniettando riflessioni orientate alla sicurezza—definite 'momenti aha di sicurezza'—nel processo di ragionamento del modello. Utilizza i meccanismi di attenzione interni del modello per identificare punti critici nel percorso di ragionamento e attiva controlli di sicurezza. Una strategia di campionamento scalabile seleziona quindi il percorso di ragionamento ottimale per garantire che sia i passaggi intermedi che le risposte finali siano sicuri. L'approccio aggiunge un costo di inferenza minimo ed è progettato per essere scalabile. L'articolo è disponibile su arXiv con ID 2508.04204.

Fatti principali

ReasoningGuard è una salvaguardia al momento dell'inferenza per i Modelli di Ragionamento di Grandi Dimensioni (LRM).
Inietta tempestivamente momenti aha di sicurezza durante il ragionamento per guidare i modelli verso output innocui.
Il metodo sfrutta i meccanismi di attenzione interni per identificare punti chiave nel ragionamento.
Una strategia di campionamento scalabile seleziona il percorso di ragionamento ottimale durante la decodifica.
Gli attuali metodi di difesa si basano su costosi fine-tuning e conoscenze esperte.
Gli LRM rimangono vulnerabili alla generazione di contenuti dannosi, specialmente nei passaggi di ragionamento intermedi e finali.
ReasoningGuard aggiunge un costo di inferenza minimo.
L'articolo è arXiv:2508.04204v2.

ReasoningGuard: Sicurezza al Momento dell'Inferenza per Modelli di Ragionamento di Grandi Dimensioni

Fatti principali

Entità

Istituzioni

Fonti