Collasso della Geometria di Sicurezza nei LLM Multimodali e Correzione Adattiva della Deriva

ai-technology · 2026-05-20

Un nuovo studio da arXiv (2605.18104) rivela che i modelli linguistici di grandi dimensioni multimodali (MLLM) non riescono a trasferire le capacità di sicurezza dal testo agli input non testuali, un fenomeno denominato Collasso della Geometria di Sicurezza. I ricercatori hanno analizzato una direzione di rifiuto allineata al testo e una direzione di deriva indotta dalla modalità, mostrando che gli input multimodali comprimono la separazione utilizzabile lungo la direzione di rifiuto, rendendola inaffidabile per identificare input dannosi. Hanno quantificato questo tramite la separabilità condizionale del rifiuto, trovando che una deriva più forte è correlata a una separabilità più debole e a tassi di successo degli attacchi più elevati. Un intervento di attivazione a forza fissa che contrasta la deriva ha ripristinato la separabilità del rifiuto, suggerendo un potenziale metodo di correzione.

Fatti principali

I LLM multimodali non riescono a trasferire le capacità di sicurezza dal testo agli input non testuali.
Il fallimento è denominato Collasso della Geometria di Sicurezza.
Sono state analizzate una direzione di rifiuto allineata al testo e una direzione di deriva indotta dalla modalità.
Gli input multimodali comprimono la separazione utilizzabile lungo la direzione di rifiuto.
Una deriva indotta dalla modalità più forte è associata a una separabilità del rifiuto più debole.
Tassi di successo degli attacchi più elevati sono correlati a una deriva più forte.
Un intervento di attivazione a forza fissa che contrasta la deriva ha ripristinato la separabilità del rifiuto.
Lo studio proviene dal preprint arXiv 2605.18104.

Collasso della Geometria di Sicurezza nei LLM Multimodali e Correzione Adattiva della Deriva

Fatti principali

Entità

Istituzioni

Fonti