ARTFEED — Contemporary Art Intelligence

Il Framework ORCA Migliora la Precisione e la Robustezza Adversarial dei Modelli Visione-Linguaggio

ai-technology · 2026-04-22

Il framework ORCA introduce un approccio innovativo al ragionamento agentico, affrontando le sfide di affidabilità nei Large Vision-Language Models (LVLM). Sebbene questi modelli mostrino impressionanti capacità multimodali, sono inclini ad allucinazioni derivanti da errori intrinseci e suscettibilità a minacce adversarial. ORCA migliora la precisione fattuale e la resilienza contro attacchi adversarial impiegando ragionamento strutturato al momento dell'inferenza, utilizzando modelli visivi più piccoli con meno di 3 miliardi di parametri. Funziona attraverso un ciclo Osserva-Ragiona-Critica-Agisce, coinvolgendo vari strumenti visivi con interrogazioni evidenziali e verificando le incongruenze tra i modelli. Le previsioni vengono raffinate iterativamente senza necessità di accesso interno al modello o riaddestramento. Questo framework archivia anche il ragionamento intermedio per decisioni trasparenti ed è stato dettagliato su arXiv con l'identificatore arXiv:2509.15435v2.

Fatti principali

  • ORCA è un framework di ragionamento agentico per Large Vision-Language Models
  • I LVLM mostrano forti capacità multimodali ma hanno limitazioni di affidabilità
  • Il framework migliora l'accuratezza fattuale e la robustezza adversarial
  • ORCA utilizza modelli visivi piccoli con meno di 3 miliardi di parametri
  • Opera attraverso un ciclo Osserva-Ragiona-Critica-Agisce
  • Il sistema interroga multipli strumenti visivi con domande evidenziali
  • ORCA valida le incongruenze cross-modello e raffina le previsioni iterativamente
  • Il framework archivia tracce di ragionamento intermedio per decisioni verificabili

Entità

Istituzioni

  • arXiv

Fonti