ARTFEED — Contemporary Art Intelligence

TaTok: Tokenizzazione Adattiva delle Immagini Basata sull'Entropia dell'Informazione

other · 2026-05-20

Uno studio pubblicato su arXiv presenta TaTok, un framework di tokenizzazione adattiva delle immagini fondato sulla teoria, che affronta le carenze dei metodi esistenti. Le tecniche tradizionali comprimono tutti i dati dell'immagine in modo uniforme, ignorando la diversa densità di informazione, il che può portare sia a ridondanza che a perdita di dettagli cruciali. TaTok impiega token globali per catturare l'informazione mutua tra i token dei patch e utilizza un algoritmo di Filtraggio Dinamico dei Token (DTF) basato sull'entropia condizionale cumulativa per ridurre la ridondanza. I risultati sperimentali indicano un miglioramento di 1,3x in gFID e un aumento di 8,7x nella velocità di inferenza, posizionandolo come leader nelle prestazioni. Questo framework ottimizza l'allocazione dei token in base al contenuto informativo, aumentando significativamente l'efficienza per l'elaborazione di lunghe sequenze di immagini.

Fatti principali

  • TaTok è un framework di tokenizzazione adattiva delle immagini fondato sulla teoria.
  • I metodi attuali comprimono tutto il contenuto a un tasso fisso, causando ridondanza o perdita di informazioni.
  • TaTok introduce token globali per modellare l'informazione mutua tra i token dei patch.
  • L'algoritmo di Filtraggio Dinamico dei Token (DTF) utilizza l'entropia condizionale cumulativa per eliminare la ridondanza.
  • Gli esperimenti mostrano un miglioramento di 1,3x in gFID e un aumento di 8,7x nella velocità di inferenza.
  • TaTok raggiunge prestazioni all'avanguardia nella tokenizzazione discreta delle immagini.
  • Il framework alloca i token in base al contenuto informativo.
  • L'articolo è pubblicato su arXiv con ID 2605.16384.

Entità

Istituzioni

  • arXiv

Fonti