Attenzione a Blocchi Generalizzata tramite Dataset SemanticSeg e Distillazione a Blocchi

other · 2026-05-18

I ricercatori propongono un metodo per generalizzare l'attenzione a blocchi per scenari a lungo contesto come il RAG. Hanno creato SemanticSeg, un dataset di oltre 30.000 istanze in 16 categorie (libri, codice, testo web, conversazioni) con lunghezze testuali da 2.000 a 32.000 token. Un segmentatore leggero viene addestrato per suddividere il testo in blocchi allineati all'umano. La distillazione a blocchi viene introdotta come un framework di addestramento efficiente che evita il degrado delle prestazioni. Il lavoro affronta la difficoltà di segmentazione e l'inefficienza del fine-tuning.

Fatti principali

Il dataset SemanticSeg contiene oltre 30.000 istanze in 16 categorie
Le lunghezze testuali vanno da 2.000 a 32.000 token
Le categorie includono libri, codice, testo web e conversazioni
Un segmentatore leggero viene addestrato per la partizione automatica del testo
La distillazione a blocchi è proposta come un framework di addestramento più efficiente
Il metodo mira al riutilizzo della cache KV in scenari RAG a lungo contesto
L'attenzione a blocchi elabora l'input come blocchi separati senza attenzione reciproca
L'approccio mira a superare le sfide di segmentazione e fine-tuning

Attenzione a Blocchi Generalizzata tramite Dataset SemanticSeg e Distillazione a Blocchi

Fatti principali

Entità

Istituzioni

Fonti