DeFacto: Quadro di Ragionamento Controfattuale per l'IA Multimodale
I ricercatori hanno introdotto DeFacto, un framework per il ragionamento controfattuale volto a migliorare la coerenza tra prove e risposte nei modelli linguistici multimodali (MLLM). Questo framework combina tre approcci di addestramento: positivo, controfattuale e mascheramento casuale. Un pipeline automatico di costruzione delle prove guidato dal linguaggio identifica le regioni rilevanti per le domande e crea varianti controfattuali, portando allo sviluppo del dataset DeFacto-100K. Gli MLLM vengono addestrati tramite apprendimento per rinforzo basato su GRPO, utilizzando tre ricompense complementari progettate per incoraggiare risposte accurate, ragionamento strutturato e selezione affidabile delle prove. Questa ricerca affronta un significativo inconveniente negli MLLM esistenti, dove risposte accurate possono dipendere da prove visive errate.
Fatti principali
- DeFacto è un framework di ragionamento controfattuale per l'IA multimodale.
- Mira a garantire la coerenza tra prove e risposte negli MLLM.
- Tre paradigmi di addestramento: positivo, controfattuale, mascheramento casuale.
- Pipeline guidata dal linguaggio crea il dataset DeFacto-100K.
- Apprendimento per rinforzo basato su GRPO con tre ricompense.
- Pubblicato su arXiv (2509.20912) come annuncio di sostituzione.
- Affronta il fallimento dei metodi esistenti nel garantire l'allineamento tra prove e risposte.
Entità
Istituzioni
- arXiv