I Prompt Tossici Riducono l'Accuratezza Fattuale dei LLM, Secondo uno Studio
Uno studio recente pubblicato su arXiv (2605.30913) esamina l'impatto del linguaggio tossico nei prompt sull'accuratezza fattuale dei grandi modelli linguistici (LLM). I ricercatori hanno valutato cinque LLM utilizzando ARC-Easy, GSM8K e MMLU con variazioni nei prompt classificate come educate, casuali e tre livelli di tossicità. I risultati indicano che l'introduzione di linguaggio tossico riduce costantemente la precisione fattuale e aumenta l'incertezza, mentre il linguaggio educato produce effetti minimi e incoerenti. Le analisi delle attivazioni del modello e delle influenze tramite grafi di attribuzione dimostrano che una maggiore tossicità potenzia selettivamente i nodi varianti sensibili alle perturbazioni, mentre il nucleo stabile del ragionamento rimane intatto. Questa ricerca sottolinea i pericoli dell'utilizzo dei LLM in scenari di dialogo avversario.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.30913
- Cinque LLM valutati su ARC-Easy, GSM8K e MMLU
- Variazioni dei prompt includevano educati, casuali e tre livelli di tossicità
- Le perturbazioni tossiche riducono costantemente l'accuratezza fattuale
- Le frasi educate producono cambiamenti limitati e incoerenti
- Analisi tramite grafi di attribuzione utilizzate per esaminare i cambiamenti interni del modello
- L'aumento della tossicità amplifica i nodi varianti sensibili alle perturbazioni
- Il nucleo stabile del ragionamento rimane sotto prompt tossici
Entità
Istituzioni
- arXiv