ARTFEED — Contemporary Art Intelligence

Le metriche di coerenza fattuale falliscono per la sintesi di documenti lunghi

other · 2026-04-30

Un'analisi di sei metriche reference-free per la factualità indica la loro inadeguatezza nel riassumere documenti lunghi. Questa ricerca, disponibile su arXiv (2511.07689v2), valuta metriche pensate per riassunti brevi rispetto a sette tipi di alterazioni che preservano la factualità: parafrasi, semplificazione, sostituzione di sinonimi, negazioni logicamente equivalenti, riduzione del vocabolario, compressione e inserimento del testo sorgente. Test su tre dataset di benchmark long-form (fantascienza, legale, scientifico) rivela punteggi variabili, sottolineando le difficoltà poste dai vincoli di lunghezza dell'input e dalle dipendenze a lungo raggio. Lo studio esamina la robustezza di queste metriche rispetto al contesto di recupero e alla densità informativa delle affermazioni, concludendo infine che le metriche progettate per riassunti brevi producono risultati incoerenti per testi più lunghi.

Fatti principali

  • Sono state valutate sei metriche di factualità reference-free.
  • Sono state applicate sette perturbazioni che preservano la factualità.
  • Sono stati utilizzati tre dataset di benchmark long-form: fantascienza, legale, scientifico.
  • Metriche originariamente proposte per la sintesi di testi brevi.
  • Le perturbazioni includono parafrasi, semplificazione, sostituzione di sinonimi, negazioni logicamente equivalenti, riduzione del vocabolario, compressione e inserimento del testo sorgente.
  • I risultati mostrano punteggi incoerenti per documenti lunghi.
  • Lo studio esamina la sensibilità al contesto di recupero e alla densità informativa delle affermazioni.
  • Pubblicato su arXiv con ID 2511.07689v2.

Entità

Istituzioni

  • arXiv

Fonti