FastTab: Riconoscimento Efficiente della Struttura delle Tabelle con Modulo Ricorsivo Minuscolo e Trasformatori 1D
FastTab introduce un nuovo approccio al riconoscimento della struttura delle tabelle (TSR), ottenendo risultati impressionanti su quattro benchmark mantenendo una bassa latenza. Questo modello evita la decodifica autoregressiva HTML attraverso una metodologia basata su griglia che integra un Modulo Ricorsivo Minuscolo (TRM) per un ragionamento completo e codificatori Transformer 1D assiali per gestire le dipendenze a lungo raggio sia nelle righe che nelle colonne. Prevede il numero di righe e colonne, identifica le righe di intestazione e determina i separatori per costruire una griglia, deducendo successivamente rowspan e colspan attraverso caratteristiche delle celle allineate all'ROI. Valutato su PubTabNet, FinTabNet, PubTables-1M e SciTSR, FastTab dimostra un efficace recupero della struttura. La ricerca indaga anche la resilienza contro l'anonimizzazione a livello di pixel e si adatta a separatori curvi in documenti catturati da telecamere. Il codice sorgente sarà disponibile su GitHub.
Fatti principali
- FastTab è un modello TSR incentrato sulla griglia
- Utilizza il Modulo Ricorsivo Minuscolo (TRM) e Transformer 1D assiali
- Evita la decodifica autoregressiva HTML
- Testato su PubTabNet, FinTabNet, PubTables-1M, SciTSR
- Raggiunge prestazioni competitive con bassa latenza
- Studia la robustezza sotto anonimizzazione a livello di pixel
- Si estende a separatori curvi per documenti catturati da telecamere
- Codice sorgente su https://github.com/hamd
Entità
Istituzioni
- arXiv