Trasferimento della Sicurezza Cross-Linguistica per LLM tramite Auto-Distillazione

ai-technology · 2026-05-07

I modelli linguistici di grandi dimensioni (LLM) affrontano problemi significativi di allineamento della sicurezza multilingue, mostrando protezioni robuste nelle lingue ad alte risorse ma essendo particolarmente suscettibili ad attacchi di jailbreak nelle lingue a basse risorse. I metodi esistenti per l'allineamento della sicurezza richiedono dati di risposta di alta qualità per ogni lingua specifica, il che è costoso e difficile da produrre. Per affrontare questo problema, i ricercatori hanno introdotto un framework chiamato Auto-Distillazione Multilingue (MSD), che consente il trasferimento delle caratteristiche di sicurezza di un LLM dalle lingue ad alte risorse come l'inglese alle lingue a basse risorse come il giavanese, senza richiedere dati di risposta. Questo framework adattabile può funzionare con varie tecniche di auto-distillazione. Due approcci specifici, MSD on-policy e MSD off-policy, facilitano il trasferimento efficace della sicurezza tra le lingue utilizzando solo query multilingue. L'articolo è accessibile su arXiv con ID 2605.02971.

Fatti principali

Gli LLM hanno un grave disallineamento della sicurezza multilingue.
Le lingue ad alte risorse hanno forti salvaguardie; le lingue a basse risorse sono vulnerabili.
Gli attuali metodi di allineamento della sicurezza richiedono costosi dati di risposta per ogni lingua.
Il framework MSD trasferisce la sicurezza dalle lingue ad alte risorse a quelle a basse risorse.
MSD elimina la necessità di dati di risposta in qualsiasi lingua.
Due metodi: MSD on-policy e MSD off-policy.
Entrambi i metodi utilizzano solo query multilingue.
Articolo disponibile su arXiv: 2605.02971.

Trasferimento della Sicurezza Cross-Linguistica per LLM tramite Auto-Distillazione

Fatti principali

Entità

Istituzioni

Fonti