EditPropBench: Benchmarking della Propagazione di Fatti da LLM in Manoscritti Scientifici

other · 2026-05-07

Un nuovo benchmark chiamato EditPropBench misura se gli editor LLM possono propagare modifiche fattuali locali attraverso affermazioni dipendenti in manoscritti scientifici. Un audit di recenti articoli arXiv cs.CL ha rilevato affermazioni qualitative dipendenti dai fatti nel 37,2% degli articoli, indicando che questo schema è comune. Il benchmark utilizza manoscritti sintetici ML/NLP con modifiche mirate e grafi di fatti controllati, tracciando il successo della cascata tramite Edit-Ripple Adherence (ERA).

Fatti principali

EditPropBench è introdotto come benchmark per misurare la propagazione di modifiche fattuali da parte degli LLM.
Un audit di articoli arXiv cs.CL ha rilevato che il 37,2% contiene affermazioni qualitative dipendenti dai fatti.
Ogni elemento del benchmark include un manoscritto sintetico, una modifica mirata e un grafo di fatti.
Il grafo di fatti ha etichette a livello di frase per obiettivi diretti, aggiornamenti downstream richiesti e testo non correlato.
Il successo della cascata è riassunto con Edit-Ripple Adherence (ERA).
Le modifiche fattuali locali spesso creano obblighi di revisione non locali.
Esempio: cambiare la dimensione del dataset da 215 a 80 documenti può rendere obsolete affermazioni come 'media scala'.
Il benchmark si concentra su manoscritti in stile ML/NLP.

EditPropBench: Benchmarking della Propagazione di Fatti da LLM in Manoscritti Scientifici

Fatti principali

Entità

Istituzioni

Fonti