TRACE: Un Framework di Assegnazione del Credito Consapevole dei Turni per il Jailbreaking Multi-Turno
Un nuovo articolo su arXiv (2605.08778) introduce TRACE, un framework di assegnazione del credito consapevole dei turni per attacchi di jailbreaking multi-turno basati su apprendimento per rinforzo ai LLM. Gli autori identificano che nei dialoghi multi-turno, i contributi a livello di turno al successo del jailbreak sono non uniformi, dipendenti dalla fase e specifici del bersaglio. I segnali di risultato grossolani a livello di traiettoria causano un problema di assegnazione del credito, premiando eccessivamente i turni ridondanti e sottovalutando i turni intermedi utili. TRACE affronta questo problema stimando i contributi a livello di turno tramite mascheramento semantico leave-one-turn-out per traiettorie riuscite e assegnando credito per quelle fallite. La ricerca mira a migliorare l'efficacia degli attacchi di jailbreaking multi-turno fornendo un feedback più granulare.
Fatti principali
- Articolo arXiv 2605.08778
- Framework TRACE per jailbreaking multi-turno
- I contributi a livello di turno sono non uniformi, dipendenti dalla fase e specifici del bersaglio
- Segnali di risultato grossolani causano un problema di assegnazione del credito
- Mascheramento semantico leave-one-turn-out per traiettorie riuscite
- Affronta la sovra-premiazione dei turni ridondanti e la sottovalutazione dei turni intermedi utili
- Utilizza apprendimento per rinforzo per le strategie di attacco
- Si concentra sui dialoghi multi-turno dei LLM
Entità
Istituzioni
- arXiv