Il rilevamento dell'inganno basato su probe nei LLM fallisce sotto cambiamento stilistico

ai-technology · 2026-05-28

Uno studio recente pubblicato su arXiv (2605.27958) valuta rigorosamente i probe lineari, addestrati sulle attivazioni dei LLM, come metriche per rilevare l'inganno nella famiglia di modelli Gemma 3 (parametri 1B-27B). Sebbene questi probe mostrino punteggi AUROC quasi perfetti (≥0,998) su benchmark puliti, falliscono di fronte a cambiamenti distribuzionali. La ricerca indaga quattro teorie riguardanti la codifica dell'inganno: direzione lineare singola, sottospazio multidimensionale, inviluppo conico convesso e proxy entropico. Attraverso varie metodologie, incluse matrici di trasferimento cross-dominio e analisi di probe multidimensionali, gli autori dimostrano che i probe potenziati stilisticamente raggiungono un rilevamento quasi perfetto (AUROC medio 0,979–0,983) su stili mai visti prima, diagnosticando anche le ragioni dei fallimenti dei probe, migliorando la comprensione delle rappresentazioni ingannevoli nei LLM.

Fatti principali

Articolo su arXiv 2605.27958
Testa modelli Gemma 3 con parametri 1B-27B
I probe raggiungono AUROC ≥0,998 su dati puliti
I probe collassano sotto cambiamento stilistico
Quattro ipotesi testate: direzione lineare singola, sottospazio multidimensionale, inviluppo conico convesso, proxy entropico
Utilizza matrici di trasferimento cross-dominio, baseline di permutazione nulla, entropia-residualizzazione, valutazioni con distrattori
Otto cambiamenti stilistici valutati
I probe potenziati stilisticamente raggiungono AUROC medio 0,979-0,983 su stili non visti

Il rilevamento dell'inganno basato su probe nei LLM fallisce sotto cambiamento stilistico

Fatti principali

Entità

Istituzioni

Fonti