Entropia di Consenso: Accordo Multi-VLM per OCR Auto-Verificante

ai-technology · 2026-05-11

I ricercatori hanno introdotto l'Entropia di Consenso (CE), una metrica senza training che stima l'affidabilità dell'output nei modelli Vision-Language (VLM) misurando l'entropia di accordo tra modelli. Il metodo si basa sull'osservazione che le previsioni corrette convergono nello spazio degli output mentre gli errori divergono. Il framework CE-OCR utilizza l'accordo d'insieme per verificare e selezionare i migliori output, migliorando l'efficienza attraverso il routing adattivo. Gli esperimenti mostrano che CE migliora i punteggi F1 del 42,1% rispetto a VLM-as-Judge per la verifica della qualità, e CE-OCR supera i basamenti di auto-consistenza e modello singolo nei compiti OCR.

Fatti principali

L'Entropia di Consenso (CE) è una metrica senza training e agnostica rispetto al modello.
CE misura l'entropia di accordo tra modelli per stimare l'affidabilità dell'output.
CE-OCR è un framework multi-modello leggero per la verifica e selezione OCR.
CE-OCR utilizza il routing adattivo per migliorare l'efficienza.
CE migliora i punteggi F1 del 42,1% rispetto a VLM-as-Judge.
CE-OCR supera i basamenti di auto-consistenza e modello singolo.
La ricerca è pubblicata su arXiv (2504.11101).
L'OCR è fondamentale per i VLM e la generazione di dati di alta qualità per l'addestramento degli LLM.

Entropia di Consenso: Accordo Multi-VLM per OCR Auto-Verificante

Fatti principali

Entità

Istituzioni

Fonti