Le metriche di coerenza fattuale falliscono per la sintesi di documenti lunghi

other · 2026-04-30

Un'analisi di sei metriche reference-free per la factualità indica la loro inadeguatezza nel riassumere documenti lunghi. Questa ricerca, disponibile su arXiv (2511.07689v2), valuta metriche pensate per riassunti brevi rispetto a sette tipi di alterazioni che preservano la factualità: parafrasi, semplificazione, sostituzione di sinonimi, negazioni logicamente equivalenti, riduzione del vocabolario, compressione e inserimento del testo sorgente. Test su tre dataset di benchmark long-form (fantascienza, legale, scientifico) rivela punteggi variabili, sottolineando le difficoltà poste dai vincoli di lunghezza dell'input e dalle dipendenze a lungo raggio. Lo studio esamina la robustezza di queste metriche rispetto al contesto di recupero e alla densità informativa delle affermazioni, concludendo infine che le metriche progettate per riassunti brevi producono risultati incoerenti per testi più lunghi.

Fatti principali

Sono state valutate sei metriche di factualità reference-free.
Sono state applicate sette perturbazioni che preservano la factualità.
Sono stati utilizzati tre dataset di benchmark long-form: fantascienza, legale, scientifico.
Metriche originariamente proposte per la sintesi di testi brevi.
Le perturbazioni includono parafrasi, semplificazione, sostituzione di sinonimi, negazioni logicamente equivalenti, riduzione del vocabolario, compressione e inserimento del testo sorgente.
I risultati mostrano punteggi incoerenti per documenti lunghi.
Lo studio esamina la sensibilità al contesto di recupero e alla densità informativa delle affermazioni.
Pubblicato su arXiv con ID 2511.07689v2.

Le metriche di coerenza fattuale falliscono per la sintesi di documenti lunghi

Fatti principali

Entità

Istituzioni

Fonti