ARTFEED — Contemporary Art Intelligence

ReasoningGuard: Sicurezza al Momento dell'Inferenza per Modelli di Ragionamento di Grandi Dimensioni

ai-technology · 2026-05-07

Un nuovo metodo chiamato ReasoningGuard mira a proteggere i Modelli di Ragionamento di Grandi Dimensioni (LRM) dalla generazione di contenuti dannosi durante il ragionamento. A differenza delle difese esistenti che richiedono costosi fine-tuning e conoscenze esperte, ReasoningGuard opera al momento dell'inferenza iniettando riflessioni orientate alla sicurezza—definite 'momenti aha di sicurezza'—nel processo di ragionamento del modello. Utilizza i meccanismi di attenzione interni del modello per identificare punti critici nel percorso di ragionamento e attiva controlli di sicurezza. Una strategia di campionamento scalabile seleziona quindi il percorso di ragionamento ottimale per garantire che sia i passaggi intermedi che le risposte finali siano sicuri. L'approccio aggiunge un costo di inferenza minimo ed è progettato per essere scalabile. L'articolo è disponibile su arXiv con ID 2508.04204.

Fatti principali

  • ReasoningGuard è una salvaguardia al momento dell'inferenza per i Modelli di Ragionamento di Grandi Dimensioni (LRM).
  • Inietta tempestivamente momenti aha di sicurezza durante il ragionamento per guidare i modelli verso output innocui.
  • Il metodo sfrutta i meccanismi di attenzione interni per identificare punti chiave nel ragionamento.
  • Una strategia di campionamento scalabile seleziona il percorso di ragionamento ottimale durante la decodifica.
  • Gli attuali metodi di difesa si basano su costosi fine-tuning e conoscenze esperte.
  • Gli LRM rimangono vulnerabili alla generazione di contenuti dannosi, specialmente nei passaggi di ragionamento intermedi e finali.
  • ReasoningGuard aggiunge un costo di inferenza minimo.
  • L'articolo è arXiv:2508.04204v2.

Entità

Istituzioni

  • arXiv

Fonti