Le Sonde Lineari Potrebbero Generalizzare Meglio Utilizzando Coordinate di Persona per la Sicurezza dell'IA
Un nuovo preprint su arXiv (2605.09391) indaga se le sonde lineari, un metodo di monitoraggio white-box, possano generalizzare meglio sotto cambiamento di distribuzione operando in un sottospazio a bassa dimensionalità degli interni del modello. Gli autori propongono di costruire assi di persona per l'inganno e la sicofania utilizzando prompt di persona contrastivi, ispirati al Modello dell'Asse Assistente e della Selezione della Persona. La PCA non supervisionata dei vettori specifici della persona produce prime componenti principali che separano nettamente i comportamenti dannosi, potenzialmente migliorando la robustezza contro l'inganno strategico e il sandbagging nei modelli linguistici. Lo studio affronta il fallimento delle sonde attuali sotto cambiamento di distribuzione, che limita la loro utilità nel mondo reale per monitorare comportamenti dannosi durante le interazioni con i modelli.
Fatti principali
- arXiv:2605.09391v1 è un nuovo articolo sulle sonde lineari per la sicurezza dell'IA.
- Il monitoraggio basato solo sul testo è insufficiente a causa dell'inganno strategico e del sandbagging.
- I monitor white-box come le sonde lineari possono leggere direttamente gli interni del modello.
- Le sonde attuali falliscono sotto cambiamento di distribuzione, limitando l'uso nel mondo reale.
- Lo studio esplora un sottospazio a bassa dimensionalità degli interni del modello per catturare robustamente i comportamenti dannosi.
- Gli assi di persona per l'inganno e la sicofania sono costruiti utilizzando prompt di persona contrastivi.
- La PCA non supervisionata dei vettori specifici della persona produce prime componenti principali che separano i comportamenti dannosi.
- L'approccio è ispirato al Modello dell'Asse Assistente e della Selezione della Persona.
Entità
Istituzioni
- arXiv