Regolarizzazione dell'Invarianza dell'Ancora per l'Allineamento della Sicurezza dei LLM
Un nuovo articolo su arXiv propone la Regolarizzazione dell'Invarianza dell'Ancora (AIR) per migliorare l'allineamento della sicurezza nei grandi modelli linguistici, imponendo un comportamento invariante al contesto. L'attuale addestramento post-preferenze spesso fallisce quando le richieste dannose vengono riformulate in modo avversariale. AIR tratta i prompt verificabili (ad esempio, a scelta multipla) come ancore per regolarizzare le varianti a risposta aperta, evitando il degrado delle prestazioni su segnali affidabili. L'approccio mira a far sì che le decisioni di sicurezza dipendano dall'intento sottostante piuttosto che dalla forma superficiale.
Fatti principali
- L'articolo arXiv:2605.20994v1 propone la Regolarizzazione dell'Invarianza dell'Ancora (AIR)
- Affronta l'allineamento della sicurezza invariante al contesto per i LLM
- L'attuale comportamento di sicurezza è fragile sotto riformulazioni avversariali
- AIR tratta i prompt verificabili come ancore
- Mira a ridurre le discrepanze tra contesti senza abbassare le prestazioni su varianti affidabili
Entità
—