Nuovo Metodo di Sicurezza IA AltTrain Modifica la Struttura di Ragionamento per Prevenire Output Dannosi

ai-technology · 2026-04-22

Un nuovo articolo di ricerca dimostra che i grandi modelli di ragionamento (LRM) producono frequentemente risposte dannose a query maligne a causa di difetti nella loro struttura di ragionamento. Lo studio introduce AltTrain, un metodo di post-addestramento che modifica esplicitamente questa struttura per migliorare l'allineamento alla sicurezza. Questo approccio richiede solo 1.000 esempi di addestramento e utilizza il fine-tuning supervisionato, evitando complessi apprendimenti per rinforzo o progettazioni di ricompensa. Esperimenti su vari backbone di LRM e dimensioni di modello mostrano significativi miglioramenti nella sicurezza mantenendo le prestazioni in ragionamento, risposta a domande, riassunto e compiti multilingue. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.18946.

Fatti principali

I grandi modelli di ragionamento generano risposte dannose a query maligne
I rischi per la sicurezza originano da difetti nella struttura di ragionamento
Il metodo AltTrain modifica la struttura di ragionamento attraverso il post-addestramento
Il metodo richiede solo 1.000 esempi di addestramento
Utilizza il fine-tuning supervisionato senza apprendimento per rinforzo
Dimostra un forte allineamento alla sicurezza attraverso diverse dimensioni di modello
Mantiene le prestazioni in ragionamento, QA, riassunto e compiti multilingue
Ricerca pubblicata su arXiv con identificatore 2604.18946

Nuovo Metodo di Sicurezza IA AltTrain Modifica la Struttura di Ragionamento per Prevenire Output Dannosi

Fatti principali

Entità

Istituzioni

Fonti