L'Omologia Persistente Rivela la Compressione Topologica nei LLM Sotto Attacchi Avversari

ai-technology · 2026-04-27

Una recente indagine utilizza l'omologia persistente (PH) per esplorare come gli input avversari alterino la geometria e la topologia degli spazi di rappresentazione interni nei modelli linguistici di grandi dimensioni (LLM). Lo studio ha esaminato sei modelli con parametri che vanno da 3,8B a 70B, concentrandosi su due attacchi specifici: iniezione indiretta di prompt e fine-tuning backdoor. I ricercatori hanno identificato una firma topologica ricorrente che indica che gli input avversari portano a una compressione topologica, semplificando lo spazio latente fondendo caratteristiche diverse, compatte e su piccola scala in poche caratteristiche più prominenti su larga scala. Questa firma è indipendente dall'architettura del modello. La ricerca colma una lacuna nei metodi di interpretabilità, che spesso trascurano le complesse relazioni ad alta dimensionalità nelle rappresentazioni del modello, rivelando che gli effetti avversari possiedono una forma topologica rilevabile.

Fatti principali

Lo studio applica l'omologia persistente agli spazi latenti dei LLM.
Analizza sei modelli (da 3,8B a 70B parametri).
Due tipi di attacco: iniezione indiretta di prompt e fine-tuning backdoor.
Gli input avversari causano compressione topologica.
La compressione collassa le caratteristiche su piccola scala in quelle su larga scala.
La firma è indipendente dall'architettura.
Pubblicato su arXiv (2505.20435).
Affronta le limitazioni dei metodi di interpretabilità esistenti.

L'Omologia Persistente Rivela la Compressione Topologica nei LLM Sotto Attacchi Avversari

Fatti principali

Entità

Istituzioni

Fonti