ARTFEED — Contemporary Art Intelligence

I Prompt Tossici Riducono l'Accuratezza Fattuale dei LLM, Secondo uno Studio

ai-technology · 2026-06-01

Uno studio recente pubblicato su arXiv (2605.30913) esamina l'impatto del linguaggio tossico nei prompt sull'accuratezza fattuale dei grandi modelli linguistici (LLM). I ricercatori hanno valutato cinque LLM utilizzando ARC-Easy, GSM8K e MMLU con variazioni nei prompt classificate come educate, casuali e tre livelli di tossicità. I risultati indicano che l'introduzione di linguaggio tossico riduce costantemente la precisione fattuale e aumenta l'incertezza, mentre il linguaggio educato produce effetti minimi e incoerenti. Le analisi delle attivazioni del modello e delle influenze tramite grafi di attribuzione dimostrano che una maggiore tossicità potenzia selettivamente i nodi varianti sensibili alle perturbazioni, mentre il nucleo stabile del ragionamento rimane intatto. Questa ricerca sottolinea i pericoli dell'utilizzo dei LLM in scenari di dialogo avversario.

Fatti principali

  • Studio pubblicato su arXiv con ID 2605.30913
  • Cinque LLM valutati su ARC-Easy, GSM8K e MMLU
  • Variazioni dei prompt includevano educati, casuali e tre livelli di tossicità
  • Le perturbazioni tossiche riducono costantemente l'accuratezza fattuale
  • Le frasi educate producono cambiamenti limitati e incoerenti
  • Analisi tramite grafi di attribuzione utilizzate per esaminare i cambiamenti interni del modello
  • L'aumento della tossicità amplifica i nodi varianti sensibili alle perturbazioni
  • Il nucleo stabile del ragionamento rimane sotto prompt tossici

Entità

Istituzioni

  • arXiv

Fonti