ARTFEED — Contemporary Art Intelligence

Nuovo Metodo di Sicurezza IA AltTrain Modifica la Struttura di Ragionamento per Prevenire Output Dannosi

ai-technology · 2026-04-22

Un nuovo articolo di ricerca dimostra che i grandi modelli di ragionamento (LRM) producono frequentemente risposte dannose a query maligne a causa di difetti nella loro struttura di ragionamento. Lo studio introduce AltTrain, un metodo di post-addestramento che modifica esplicitamente questa struttura per migliorare l'allineamento alla sicurezza. Questo approccio richiede solo 1.000 esempi di addestramento e utilizza il fine-tuning supervisionato, evitando complessi apprendimenti per rinforzo o progettazioni di ricompensa. Esperimenti su vari backbone di LRM e dimensioni di modello mostrano significativi miglioramenti nella sicurezza mantenendo le prestazioni in ragionamento, risposta a domande, riassunto e compiti multilingue. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.18946.

Fatti principali

  • I grandi modelli di ragionamento generano risposte dannose a query maligne
  • I rischi per la sicurezza originano da difetti nella struttura di ragionamento
  • Il metodo AltTrain modifica la struttura di ragionamento attraverso il post-addestramento
  • Il metodo richiede solo 1.000 esempi di addestramento
  • Utilizza il fine-tuning supervisionato senza apprendimento per rinforzo
  • Dimostra un forte allineamento alla sicurezza attraverso diverse dimensioni di modello
  • Mantiene le prestazioni in ragionamento, QA, riassunto e compiti multilingue
  • Ricerca pubblicata su arXiv con identificatore 2604.18946

Entità

Istituzioni

  • arXiv

Fonti