Mappatura dei Manifold di Fallimento nei Modelli Linguistici di Grandi Dimensioni
Un nuovo framework mappa sistematicamente il 'Manifold del Fallimento' nei LLM, trattando la ricerca di vulnerabilità come un problema di diversità di qualità. Utilizzando MAP-Elites, i ricercatori identificano bacini di attrazione comportamentale e misurano la deviazione dall'allineamento. Testato su Llama-3-8B, GPT-OSS-20B e GPT-5-Mini, il metodo raggiunge fino al 63% di copertura comportamentale e scopre fino a 370 nicchie di vulnerabilità distinte, rivelando firme topologiche specifiche del modello.
Fatti principali
- Il framework mappa il Manifold del Fallimento nei LLM
- Riformula la ricerca di vulnerabilità come un problema di diversità di qualità utilizzando MAP-Elites
- Introduce la Deviazione dall'Allineamento come metrica di qualità
- Testato su Llama-3-8B, GPT-OSS-20B e GPT-5-Mini
- Raggiunge fino al 63% di copertura comportamentale
- Scopre fino a 370 nicchie di vulnerabilità distinte
- Rivela firme topologiche specifiche del modello
- Pubblicato su arXiv (2602.22291)
Entità
Istituzioni
- arXiv