ARTFEED — Contemporary Art Intelligence

Entropia di Consenso: Accordo Multi-VLM per OCR Auto-Verificante

ai-technology · 2026-05-11

I ricercatori hanno introdotto l'Entropia di Consenso (CE), una metrica senza training che stima l'affidabilità dell'output nei modelli Vision-Language (VLM) misurando l'entropia di accordo tra modelli. Il metodo si basa sull'osservazione che le previsioni corrette convergono nello spazio degli output mentre gli errori divergono. Il framework CE-OCR utilizza l'accordo d'insieme per verificare e selezionare i migliori output, migliorando l'efficienza attraverso il routing adattivo. Gli esperimenti mostrano che CE migliora i punteggi F1 del 42,1% rispetto a VLM-as-Judge per la verifica della qualità, e CE-OCR supera i basamenti di auto-consistenza e modello singolo nei compiti OCR.

Fatti principali

  • L'Entropia di Consenso (CE) è una metrica senza training e agnostica rispetto al modello.
  • CE misura l'entropia di accordo tra modelli per stimare l'affidabilità dell'output.
  • CE-OCR è un framework multi-modello leggero per la verifica e selezione OCR.
  • CE-OCR utilizza il routing adattivo per migliorare l'efficienza.
  • CE migliora i punteggi F1 del 42,1% rispetto a VLM-as-Judge.
  • CE-OCR supera i basamenti di auto-consistenza e modello singolo.
  • La ricerca è pubblicata su arXiv (2504.11101).
  • L'OCR è fondamentale per i VLM e la generazione di dati di alta qualità per l'addestramento degli LLM.

Entità

Istituzioni

  • arXiv

Fonti