DeFacto: Quadro di Ragionamento Controfattuale per l'IA Multimodale

ai-technology · 2026-05-22

I ricercatori hanno introdotto DeFacto, un framework per il ragionamento controfattuale volto a migliorare la coerenza tra prove e risposte nei modelli linguistici multimodali (MLLM). Questo framework combina tre approcci di addestramento: positivo, controfattuale e mascheramento casuale. Un pipeline automatico di costruzione delle prove guidato dal linguaggio identifica le regioni rilevanti per le domande e crea varianti controfattuali, portando allo sviluppo del dataset DeFacto-100K. Gli MLLM vengono addestrati tramite apprendimento per rinforzo basato su GRPO, utilizzando tre ricompense complementari progettate per incoraggiare risposte accurate, ragionamento strutturato e selezione affidabile delle prove. Questa ricerca affronta un significativo inconveniente negli MLLM esistenti, dove risposte accurate possono dipendere da prove visive errate.

Fatti principali

DeFacto è un framework di ragionamento controfattuale per l'IA multimodale.
Mira a garantire la coerenza tra prove e risposte negli MLLM.
Tre paradigmi di addestramento: positivo, controfattuale, mascheramento casuale.
Pipeline guidata dal linguaggio crea il dataset DeFacto-100K.
Apprendimento per rinforzo basato su GRPO con tre ricompense.
Pubblicato su arXiv (2509.20912) come annuncio di sostituzione.
Affronta il fallimento dei metodi esistenti nel garantire l'allineamento tra prove e risposte.

DeFacto: Quadro di Ragionamento Controfattuale per l'IA Multimodale

Fatti principali

Entità

Istituzioni

Fonti