I modelli linguistici rilevano e identificano le perturbazioni di attivazione con elevata precisione

ai-technology · 2026-04-22

La ricerca dimostra che i grandi modelli linguistici possono identificare quando le loro attivazioni interne sono state alterate. Gli esperimenti hanno coinvolto l'applicazione di mascheramento simile al dropout o rumore gaussiano a frasi specifiche durante l'elaborazione dei modelli. Sono stati testati modelli delle famiglie Llama, Olmo e Qwen, con dimensioni comprese tra 8B e 32B di parametri. Questi sistemi non solo sono stati in grado di rilevare la presenza di una perturbazione, ma anche di individuarne la posizione all'interno di una sequenza. Quando presentati con un formato a scelta multipla, i modelli hanno raggiunto un'elevata, a volte perfetta, precisione nell'indicare quale frase fosse stata modificata. Inoltre, i modelli hanno imparato a distinguere tra i due tipi di interferenza - dropout e rumore - quando forniti di esempi contestuali. Un risultato significativo ha mostrato che la capacità di Qwen di identificare il tipo di perturbazione in uno scenario zero-shot migliorava all'aumentare dell'intensità dell'interferenza. Questa capacità, tuttavia, diminuiva se le etichette istruzionali nel contesto venivano scambiate o rese errate. Lo studio, dettagliato nella preprint arXiv 2604.17465v1, fornisce prove che i modelli linguistici possiedono una forma di consapevolezza introspettiva riguardo ai propri stati computazionali.

Fatti principali

I modelli linguistici possono rilevare le perturbazioni applicate alle loro attivazioni interne
Sono stati testati due tipi di perturbazione: mascheramento simile al dropout e rumore gaussiano
I modelli testati includevano famiglie come Llama, Olmo e Qwen
Le dimensioni dei modelli variavano da 8 a 32 miliardi di parametri
I modelli potevano localizzare quale frase specifica fosse stata perturbata
I modelli hanno raggiunto un'elevata, spesso perfetta, precisione nelle attività di rilevamento
I modelli hanno imparato a distinguere tra dropout e rumore attraverso l'insegnamento in-context
La precisione di identificazione zero-shot di Qwen variava in base all'intensità della perturbazione e alla correttezza delle etichette

Entità

—

Fonti

arXiv cs.AI — 2026-04-21