Entropia di Consenso: Accordo Multi-VLM per OCR Auto-Verificante
I ricercatori hanno introdotto l'Entropia di Consenso (CE), una metrica senza training che stima l'affidabilità dell'output nei modelli Vision-Language (VLM) misurando l'entropia di accordo tra modelli. Il metodo si basa sull'osservazione che le previsioni corrette convergono nello spazio degli output mentre gli errori divergono. Il framework CE-OCR utilizza l'accordo d'insieme per verificare e selezionare i migliori output, migliorando l'efficienza attraverso il routing adattivo. Gli esperimenti mostrano che CE migliora i punteggi F1 del 42,1% rispetto a VLM-as-Judge per la verifica della qualità, e CE-OCR supera i basamenti di auto-consistenza e modello singolo nei compiti OCR.
Fatti principali
- L'Entropia di Consenso (CE) è una metrica senza training e agnostica rispetto al modello.
- CE misura l'entropia di accordo tra modelli per stimare l'affidabilità dell'output.
- CE-OCR è un framework multi-modello leggero per la verifica e selezione OCR.
- CE-OCR utilizza il routing adattivo per migliorare l'efficienza.
- CE migliora i punteggi F1 del 42,1% rispetto a VLM-as-Judge.
- CE-OCR supera i basamenti di auto-consistenza e modello singolo.
- La ricerca è pubblicata su arXiv (2504.11101).
- L'OCR è fondamentale per i VLM e la generazione di dati di alta qualità per l'addestramento degli LLM.
Entità
Istituzioni
- arXiv