VeriTaS: Benchmark Dinamico per il Fact-Checking Multimodale
Un team di ricercatori ha lanciato VeriTaS (Verified Theses and Statements), segnando il debutto di un benchmark dinamico per il fact-checking automatico multimodale (AFC). Questo nuovo benchmark supera le carenze degli attuali benchmark statici, che sono soggetti a data leakage quando le loro affermazioni vengono incorporate nei dataset di pre-addestramento dei LLM. VeriTaS include 25.000 affermazioni autentiche provenienti da 104 organizzazioni professionali di fact-checking in 54 lingue diverse, comprendendo sia materiale testuale che audiovisivo. Ogni trimestre, le affermazioni vengono integrate attraverso un processo automatizzato in sette fasi che standardizza i formati. Questo benchmark è progettato per resistere all'ampio pre-addestramento dei modelli fondamentali, garantendo che le metriche di performance riflettano accuratamente le reali capacità di verifica.
Fatti principali
- VeriTaS è il primo benchmark dinamico per il fact-checking automatico multimodale.
- Include 25.000 affermazioni reali provenienti da 104 organizzazioni di fact-checking.
- Le affermazioni coprono 54 lingue e contenuti sia testuali che audiovisivi.
- Nuove affermazioni vengono aggiunte trimestralmente tramite una pipeline automatizzata in sette fasi.
- Il benchmark affronta il data leakage nei benchmark statici utilizzati per i LLM.
- È progettato per rimanere robusto sotto un continuo pre-addestramento su larga scala.
- Il lavoro è pubblicato su arXiv con identificatore 2601.08611.
- L'obiettivo è riflettere in modo affidabile le reali capacità di verifica delle affermazioni.
Entità
—