SemanticZip: Compressione testuale lossy tramite decompressione LLM

ai-technology · 2026-05-26

Un nuovo framework chiamato SemanticZip propone una compressione testuale lossy in cui un LLM decompatta codici compatti in significato rilevante per il compito, piuttosto che nella ricostruzione esatta dei byte. Lo studio pilota formalizza la decompressione mediata da LLM con un'architettura di pacchetti protetti/lossy e valuta sei regimi di rappresentazione—prosa strutturata, JSON, CCL-Core, CCL-Min, SemanticZip ASCII e SemanticZip emoji—su cinque casi diagnostici costruiti dall'autore. L'approccio tratta la decompressione basata su modello come parte del codec, valutando il recupero degli impegni semantici piuttosto che del testo esatto. Non vengono avanzate rivendicazioni di benchmark; l'articolo funge da proof-of-concept.

Fatti principali

SemanticZip è un framework di compressione testuale lossy che utilizza LLM come decompressori semantici.
Non richiede una ricostruzione identica byte per byte, a differenza della compressione lossless.
Il framework definisce un'architettura di pacchetti protetti/lossy.
Sei regimi di rappresentazione vengono valutati: prosa strutturata, JSON, CCL-Core, CCL-Min, SemanticZip ASCII e SemanticZip emoji.
Vengono utilizzati cinque casi diagnostici costruiti dall'autore.
Un LLM decodificatore indipendente ricostruisce atomi semantici tipizzati da codici compressi.
L'articolo è un framework pilota, non una rivendicazione di benchmark.
Pubblicato su arXiv con ID 2605.24541.

SemanticZip: Compressione testuale lossy tramite decompressione LLM

Fatti principali

Entità

Istituzioni

Fonti