Nuovo Metodo di Sicurezza IA AltTrain Modifica la Struttura di Ragionamento per Prevenire Output Dannosi
Un nuovo articolo di ricerca dimostra che i grandi modelli di ragionamento (LRM) producono frequentemente risposte dannose a query maligne a causa di difetti nella loro struttura di ragionamento. Lo studio introduce AltTrain, un metodo di post-addestramento che modifica esplicitamente questa struttura per migliorare l'allineamento alla sicurezza. Questo approccio richiede solo 1.000 esempi di addestramento e utilizza il fine-tuning supervisionato, evitando complessi apprendimenti per rinforzo o progettazioni di ricompensa. Esperimenti su vari backbone di LRM e dimensioni di modello mostrano significativi miglioramenti nella sicurezza mantenendo le prestazioni in ragionamento, risposta a domande, riassunto e compiti multilingue. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.18946.
Fatti principali
- I grandi modelli di ragionamento generano risposte dannose a query maligne
- I rischi per la sicurezza originano da difetti nella struttura di ragionamento
- Il metodo AltTrain modifica la struttura di ragionamento attraverso il post-addestramento
- Il metodo richiede solo 1.000 esempi di addestramento
- Utilizza il fine-tuning supervisionato senza apprendimento per rinforzo
- Dimostra un forte allineamento alla sicurezza attraverso diverse dimensioni di modello
- Mantiene le prestazioni in ragionamento, QA, riassunto e compiti multilingue
- Ricerca pubblicata su arXiv con identificatore 2604.18946
Entità
Istituzioni
- arXiv