Chart-FR1: Ragionamento Guidato dalla Messa a Fuoco per Grafici Densi
L'introduzione di Chart-FR1 mira a migliorare l'efficacia dei modelli linguistici multimodali di grandi dimensioni (MLLM) quando si trovano ad affrontare grafici ad alta densità informativa (HID). Questi grafici, caratterizzati da numerosi sottografici, legende e annotazioni intricate, presentano tre difficoltà principali: percezione insufficiente a grana fine che porta alla perdita di segnali visivi vitali, ridondanza visiva eccessiva che ostacola il ragionamento, e una carenza di ragionamento profondo adattivo. Per affrontare questi problemi, Chart-FR1 impiega Focus-CoT, una catena di pensiero visivo focalizzata che collega i processi di ragionamento agli elementi visivi essenziali come aree locali dell'immagine e segnali OCR. Questo modello migliora la percezione, l'efficienza nella messa a fuoco e il ragionamento profondo adattivo per grafici HID. I risultati sono dettagliati nell'articolo arXiv 2605.01882v1.
Fatti principali
- Chart-FR1 è un modello di ragionamento su grafici a grana fine guidato dalla messa a fuoco.
- Si rivolge a grafici ad alta densità informativa (HID) con più sottografici, legende e annotazioni dense.
- Tre sfide affrontate: percezione limitata a grana fine, informazioni visive ridondanti, mancanza di ragionamento profondo adattivo.
- Focus-CoT è una catena di pensiero visivo focalizzata che collega i passaggi di ragionamento a indizi visivi chiave.
- Gli indizi visivi chiave includono regioni locali dell'immagine e segnali OCR.
- Il modello migliora la percezione, l'efficienza nella messa a fuoco e il ragionamento profondo adattivo.
- La ricerca è pubblicata su arXiv con ID 2605.01882v1.
Entità
Istituzioni
- arXiv