Le metriche di coerenza fattuale falliscono per la sintesi di documenti lunghi
Un'analisi di sei metriche reference-free per la factualità indica la loro inadeguatezza nel riassumere documenti lunghi. Questa ricerca, disponibile su arXiv (2511.07689v2), valuta metriche pensate per riassunti brevi rispetto a sette tipi di alterazioni che preservano la factualità: parafrasi, semplificazione, sostituzione di sinonimi, negazioni logicamente equivalenti, riduzione del vocabolario, compressione e inserimento del testo sorgente. Test su tre dataset di benchmark long-form (fantascienza, legale, scientifico) rivela punteggi variabili, sottolineando le difficoltà poste dai vincoli di lunghezza dell'input e dalle dipendenze a lungo raggio. Lo studio esamina la robustezza di queste metriche rispetto al contesto di recupero e alla densità informativa delle affermazioni, concludendo infine che le metriche progettate per riassunti brevi producono risultati incoerenti per testi più lunghi.
Fatti principali
- Sono state valutate sei metriche di factualità reference-free.
- Sono state applicate sette perturbazioni che preservano la factualità.
- Sono stati utilizzati tre dataset di benchmark long-form: fantascienza, legale, scientifico.
- Metriche originariamente proposte per la sintesi di testi brevi.
- Le perturbazioni includono parafrasi, semplificazione, sostituzione di sinonimi, negazioni logicamente equivalenti, riduzione del vocabolario, compressione e inserimento del testo sorgente.
- I risultati mostrano punteggi incoerenti per documenti lunghi.
- Lo studio esamina la sensibilità al contesto di recupero e alla densità informativa delle affermazioni.
- Pubblicato su arXiv con ID 2511.07689v2.
Entità
Istituzioni
- arXiv