Il Framework ORCA Migliora la Precisione e la Robustezza Adversarial dei Modelli Visione-Linguaggio
Il framework ORCA introduce un approccio innovativo al ragionamento agentico, affrontando le sfide di affidabilità nei Large Vision-Language Models (LVLM). Sebbene questi modelli mostrino impressionanti capacità multimodali, sono inclini ad allucinazioni derivanti da errori intrinseci e suscettibilità a minacce adversarial. ORCA migliora la precisione fattuale e la resilienza contro attacchi adversarial impiegando ragionamento strutturato al momento dell'inferenza, utilizzando modelli visivi più piccoli con meno di 3 miliardi di parametri. Funziona attraverso un ciclo Osserva-Ragiona-Critica-Agisce, coinvolgendo vari strumenti visivi con interrogazioni evidenziali e verificando le incongruenze tra i modelli. Le previsioni vengono raffinate iterativamente senza necessità di accesso interno al modello o riaddestramento. Questo framework archivia anche il ragionamento intermedio per decisioni trasparenti ed è stato dettagliato su arXiv con l'identificatore arXiv:2509.15435v2.
Fatti principali
- ORCA è un framework di ragionamento agentico per Large Vision-Language Models
- I LVLM mostrano forti capacità multimodali ma hanno limitazioni di affidabilità
- Il framework migliora l'accuratezza fattuale e la robustezza adversarial
- ORCA utilizza modelli visivi piccoli con meno di 3 miliardi di parametri
- Opera attraverso un ciclo Osserva-Ragiona-Critica-Agisce
- Il sistema interroga multipli strumenti visivi con domande evidenziali
- ORCA valida le incongruenze cross-modello e raffina le previsioni iterativamente
- Il framework archivia tracce di ragionamento intermedio per decisioni verificabili
Entità
Istituzioni
- arXiv