FakeWiki Benchmark per la Provenienza dei Modelli Linguistici

other · 2026-05-09

Un nuovo articolo su arXiv introduce DataDignity, un framework per l'attribuzione dei dati di addestramento nei grandi modelli linguistici. Gli autori propongono pinpoint provenance, un compito per identificare quale documento sorgente supporta la risposta di un modello. Hanno creato FakeWiki, un benchmark di 3.537 articoli in stile Wikipedia fabbricati con provenienza di base. Il benchmark include sonde QA, parafrasi, varianti retro-generate e anti-documenti difficili. Vengono testate cinque condizioni di query: prompting pulito e quattro trasformazioni ispirate al jailbreak. Lo studio valuta sette baseline di recupero, un metodo senza addestramento chiamato SteerFuse e un ranker contrastivo supervisionato, ScoringModel.

Fatti principali

DataDignity affronta l'attribuzione dei dati di addestramento per i LLM.
Pinpoint provenance classifica i documenti che supportano una risposta del modello.
FakeWiki contiene 3.537 articoli in stile Wikipedia fabbricati.
FakeWiki include sonde QA, parafrasi, varianti retro-generate e anti-documenti difficili.
Cinque condizioni di query: prompting pulito e quattro trasformazioni ispirate al jailbreak.
Sette baseline di recupero valutate.
SteerFuse è un metodo di fusione di recupero tramite attivazione senza addestramento.
ScoringModel è un ranker di provenienza contrastivo supervisionato.

FakeWiki Benchmark per la Provenienza dei Modelli Linguistici

Fatti principali

Entità

Istituzioni

Fonti