Il Framework ORCA Migliora la Precisione e la Robustezza Adversarial dei Modelli Visione-Linguaggio

ai-technology · 2026-04-22

Il framework ORCA introduce un approccio innovativo al ragionamento agentico, affrontando le sfide di affidabilità nei Large Vision-Language Models (LVLM). Sebbene questi modelli mostrino impressionanti capacità multimodali, sono inclini ad allucinazioni derivanti da errori intrinseci e suscettibilità a minacce adversarial. ORCA migliora la precisione fattuale e la resilienza contro attacchi adversarial impiegando ragionamento strutturato al momento dell'inferenza, utilizzando modelli visivi più piccoli con meno di 3 miliardi di parametri. Funziona attraverso un ciclo Osserva-Ragiona-Critica-Agisce, coinvolgendo vari strumenti visivi con interrogazioni evidenziali e verificando le incongruenze tra i modelli. Le previsioni vengono raffinate iterativamente senza necessità di accesso interno al modello o riaddestramento. Questo framework archivia anche il ragionamento intermedio per decisioni trasparenti ed è stato dettagliato su arXiv con l'identificatore arXiv:2509.15435v2.

Fatti principali

ORCA è un framework di ragionamento agentico per Large Vision-Language Models
I LVLM mostrano forti capacità multimodali ma hanno limitazioni di affidabilità
Il framework migliora l'accuratezza fattuale e la robustezza adversarial
ORCA utilizza modelli visivi piccoli con meno di 3 miliardi di parametri
Opera attraverso un ciclo Osserva-Ragiona-Critica-Agisce
Il sistema interroga multipli strumenti visivi con domande evidenziali
ORCA valida le incongruenze cross-modello e raffina le previsioni iterativamente
Il framework archivia tracce di ragionamento intermedio per decisioni verificabili

Il Framework ORCA Migliora la Precisione e la Robustezza Adversarial dei Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti