ARTFEED — Contemporary Art Intelligence

Mappatura dei Manifold di Fallimento nei Modelli Linguistici di Grandi Dimensioni

other · 2026-05-07

Un nuovo framework mappa sistematicamente il 'Manifold del Fallimento' nei LLM, trattando la ricerca di vulnerabilità come un problema di diversità di qualità. Utilizzando MAP-Elites, i ricercatori identificano bacini di attrazione comportamentale e misurano la deviazione dall'allineamento. Testato su Llama-3-8B, GPT-OSS-20B e GPT-5-Mini, il metodo raggiunge fino al 63% di copertura comportamentale e scopre fino a 370 nicchie di vulnerabilità distinte, rivelando firme topologiche specifiche del modello.

Fatti principali

  • Il framework mappa il Manifold del Fallimento nei LLM
  • Riformula la ricerca di vulnerabilità come un problema di diversità di qualità utilizzando MAP-Elites
  • Introduce la Deviazione dall'Allineamento come metrica di qualità
  • Testato su Llama-3-8B, GPT-OSS-20B e GPT-5-Mini
  • Raggiunge fino al 63% di copertura comportamentale
  • Scopre fino a 370 nicchie di vulnerabilità distinte
  • Rivela firme topologiche specifiche del modello
  • Pubblicato su arXiv (2602.22291)

Entità

Istituzioni

  • arXiv

Fonti