LatentRouter prevede le prestazioni del modello multimodale prima dell'esecuzione

ai-technology · 2026-05-13

I ricercatori propongono LatentRouter, un sistema che prevede quanto bene un modello linguistico multimodale di grandi dimensioni (MLLM) si comporterà su un dato input immagine-domanda prima di eseguire effettivamente il modello. Il router estrae capsule di routing multimodali dalla query e le confronta con i token di capacità del modello tramite comunicazione latente, stimando l'utilità controfattuale per ciascun MLLM candidato. Una testa di output distribuzionale prevede la qualità specifica del modello, mentre una correzione di capsule limitata perfeziona le decisioni incerte. L'approccio affronta i punti di forza eterogenei degli MLLM in compiti come OCR, comprensione di grafici, ragionamento spaziale e risposta a domande visive, mirando a ottimizzare sia le prestazioni che i compromessi costo/latenza. L'articolo è pubblicato su arXiv con ID 2605.11301.

Fatti principali

LatentRouter formula il routing MLLM come previsione di utilità controfattuale multimodale.
Estrae capsule di routing multimodali apprese da query immagine-domanda.
Ogni MLLM candidato è rappresentato da un token di capacità del modello.
La comunicazione latente stima come ogni modello si comporterebbe se selezionato.
Una testa di output distribuzionale prevede la qualità controfattuale specifica del modello.
Una correzione di capsule limitata perfeziona le decisioni incerte senza dominanza del segnale residuo.
Gli MLLM hanno punti di forza eterogenei in OCR, comprensione di grafici, ragionamento spaziale, VQA, costo e latenza.
L'articolo è arXiv:2605.11301.

LatentRouter prevede le prestazioni del modello multimodale prima dell'esecuzione

Fatti principali

Entità

Istituzioni

Fonti