Mappatura dei Manifold di Fallimento nei Modelli Linguistici di Grandi Dimensioni

other · 2026-05-07

Un nuovo framework mappa sistematicamente il 'Manifold del Fallimento' nei LLM, trattando la ricerca di vulnerabilità come un problema di diversità di qualità. Utilizzando MAP-Elites, i ricercatori identificano bacini di attrazione comportamentale e misurano la deviazione dall'allineamento. Testato su Llama-3-8B, GPT-OSS-20B e GPT-5-Mini, il metodo raggiunge fino al 63% di copertura comportamentale e scopre fino a 370 nicchie di vulnerabilità distinte, rivelando firme topologiche specifiche del modello.

Fatti principali

Il framework mappa il Manifold del Fallimento nei LLM
Riformula la ricerca di vulnerabilità come un problema di diversità di qualità utilizzando MAP-Elites
Introduce la Deviazione dall'Allineamento come metrica di qualità
Testato su Llama-3-8B, GPT-OSS-20B e GPT-5-Mini
Raggiunge fino al 63% di copertura comportamentale
Scopre fino a 370 nicchie di vulnerabilità distinte
Rivela firme topologiche specifiche del modello
Pubblicato su arXiv (2602.22291)

Mappatura dei Manifold di Fallimento nei Modelli Linguistici di Grandi Dimensioni

Fatti principali

Entità

Istituzioni

Fonti