DSIPA: Framework senza addestramento rileva testo generato da LLM tramite analisi del sentiment

ai-technology · 2026-04-30

I ricercatori hanno proposto DSIPA, un innovativo framework senza addestramento per rilevare testo generato da LLM analizzando la stabilità distribuzionale del sentiment sotto variazioni stilistiche controllate. Il framework affronta le sfide di sicurezza poste dai contenuti generati da macchine utilizzati per disinformazione, impersonificazione e falsificazione di contenuti. A differenza dei metodi di rilevamento esistenti che lottano con perturbazioni avversarie, attacchi di parafrasi e cambi di dominio, DSIPA opera in modalità zero-shot e black-box senza richiedere accesso ai parametri del modello o grandi set di dati etichettati. Sfrutta due metriche non supervisionate—consistenza della distribuzione del sentiment e preservazione della distribuzione del sentiment—basate sull'osservazione che gli LLM producono output emotivamente coerenti mentre i testi scritti da umani mostrano una maggiore variazione affettiva. L'articolo è disponibile su arXiv con identificatore 2604.26328.

Fatti principali

DSIPA è un framework senza addestramento per rilevare testo generato da LLM.
Utilizza la stabilità distribuzionale del sentiment sotto variazioni stilistiche.
Il framework è zero-shot e black-box.
Impiega due metriche non supervisionate: consistenza della distribuzione del sentiment e preservazione della distribuzione del sentiment.
Gli LLM producono output emotivamente coerenti; gli umani mostrano una maggiore variazione affettiva.
I metodi di rilevamento esistenti sono vulnerabili a perturbazioni avversarie e attacchi di parafrasi.
L'articolo è pubblicato su arXiv con ID 2604.26328.
L'approccio affronta disinformazione, impersonificazione e falsificazione di contenuti.

DSIPA: Framework senza addestramento rileva testo generato da LLM tramite analisi del sentiment

Fatti principali

Entità

Istituzioni

Fonti