Compressione Visiva del Testo come Trasporto di Misura

publication · 2026-05-11

Un recente preprint su arXiv introduce un nuovo approccio per valutare la compressione visiva del testo (VTC), paragonandola ai concetti di trasporto di misura. Il metodo trasforma il testo in formati immagine adatti ai modelli visione-linguaggio, consentendo una riduzione dei token tra tre e venti volte rispetto alla tokenizzazione subword tradizionale. Nonostante questa riduzione, un minor numero di token non sempre migliora le prestazioni nei compiti successivi. I ricercatori caratterizzano i token testuali e visivi come misure di probabilità, dimostrando come l'encoder di patch ViT generi una mappa push-forward. Questo quadro valuta la perdita di informazioni, correlando l'efficacia della compressione ad applicazioni pratiche nel settore.

Fatti principali

La compressione visiva del testo (VTC) rende il testo in un'immagine per la ri-codifica da parte di un modello visione-linguaggio.
La VTC produce 3–20× meno token decoder rispetto alla tokenizzazione subword.
Il risparmio di token non predice le prestazioni nei compiti downstream.
L'articolo formula la VTC nel linguaggio del trasporto di misura.
I token testuali e visivi sono trattati come misure di probabilità empiriche.
L'encoder di patch ViT induce una mappa push-forward.
Il costo di trasporto si scompone in costo di precisione (aggregazione intra-patch) e costo di copertura (interazioni cross-patch).
Il quadro fornisce una misura fondata della perdita di informazioni rilevanti per il compito.

Compressione Visiva del Testo come Trasporto di Misura

Fatti principali

Entità

Istituzioni

Fonti