Regolarizzazione dell'Invarianza dell'Ancora per l'Allineamento della Sicurezza dei LLM

ai-technology · 2026-05-22

Un nuovo articolo su arXiv propone la Regolarizzazione dell'Invarianza dell'Ancora (AIR) per migliorare l'allineamento della sicurezza nei grandi modelli linguistici, imponendo un comportamento invariante al contesto. L'attuale addestramento post-preferenze spesso fallisce quando le richieste dannose vengono riformulate in modo avversariale. AIR tratta i prompt verificabili (ad esempio, a scelta multipla) come ancore per regolarizzare le varianti a risposta aperta, evitando il degrado delle prestazioni su segnali affidabili. L'approccio mira a far sì che le decisioni di sicurezza dipendano dall'intento sottostante piuttosto che dalla forma superficiale.

Fatti principali

L'articolo arXiv:2605.20994v1 propone la Regolarizzazione dell'Invarianza dell'Ancora (AIR)
Affronta l'allineamento della sicurezza invariante al contesto per i LLM
L'attuale comportamento di sicurezza è fragile sotto riformulazioni avversariali
AIR tratta i prompt verificabili come ancore
Mira a ridurre le discrepanze tra contesti senza abbassare le prestazioni su varianti affidabili

Entità

—

Fonti

arXiv cs.AI — 2026-05-21