Attenzione a Blocchi Generalizzata tramite Dataset SemanticSeg e Distillazione a Blocchi
I ricercatori propongono un metodo per generalizzare l'attenzione a blocchi per scenari a lungo contesto come il RAG. Hanno creato SemanticSeg, un dataset di oltre 30.000 istanze in 16 categorie (libri, codice, testo web, conversazioni) con lunghezze testuali da 2.000 a 32.000 token. Un segmentatore leggero viene addestrato per suddividere il testo in blocchi allineati all'umano. La distillazione a blocchi viene introdotta come un framework di addestramento efficiente che evita il degrado delle prestazioni. Il lavoro affronta la difficoltà di segmentazione e l'inefficienza del fine-tuning.
Fatti principali
- Il dataset SemanticSeg contiene oltre 30.000 istanze in 16 categorie
- Le lunghezze testuali vanno da 2.000 a 32.000 token
- Le categorie includono libri, codice, testo web e conversazioni
- Un segmentatore leggero viene addestrato per la partizione automatica del testo
- La distillazione a blocchi è proposta come un framework di addestramento più efficiente
- Il metodo mira al riutilizzo della cache KV in scenari RAG a lungo contesto
- L'attenzione a blocchi elabora l'input come blocchi separati senza attenzione reciproca
- L'approccio mira a superare le sfide di segmentazione e fine-tuning
Entità
Istituzioni
- arXiv