I Prompt Tossici Riducono l'Accuratezza Fattuale dei LLM, Secondo uno Studio

ai-technology · 2026-06-01

Uno studio recente pubblicato su arXiv (2605.30913) esamina l'impatto del linguaggio tossico nei prompt sull'accuratezza fattuale dei grandi modelli linguistici (LLM). I ricercatori hanno valutato cinque LLM utilizzando ARC-Easy, GSM8K e MMLU con variazioni nei prompt classificate come educate, casuali e tre livelli di tossicità. I risultati indicano che l'introduzione di linguaggio tossico riduce costantemente la precisione fattuale e aumenta l'incertezza, mentre il linguaggio educato produce effetti minimi e incoerenti. Le analisi delle attivazioni del modello e delle influenze tramite grafi di attribuzione dimostrano che una maggiore tossicità potenzia selettivamente i nodi varianti sensibili alle perturbazioni, mentre il nucleo stabile del ragionamento rimane intatto. Questa ricerca sottolinea i pericoli dell'utilizzo dei LLM in scenari di dialogo avversario.

Fatti principali

Studio pubblicato su arXiv con ID 2605.30913
Cinque LLM valutati su ARC-Easy, GSM8K e MMLU
Variazioni dei prompt includevano educati, casuali e tre livelli di tossicità
Le perturbazioni tossiche riducono costantemente l'accuratezza fattuale
Le frasi educate producono cambiamenti limitati e incoerenti
Analisi tramite grafi di attribuzione utilizzate per esaminare i cambiamenti interni del modello
L'aumento della tossicità amplifica i nodi varianti sensibili alle perturbazioni
Il nucleo stabile del ragionamento rimane sotto prompt tossici

I Prompt Tossici Riducono l'Accuratezza Fattuale dei LLM, Secondo uno Studio

Fatti principali

Entità

Istituzioni

Fonti