ARTFEED — Contemporary Art Intelligence

Attenzione a Blocchi Generalizzata tramite Dataset SemanticSeg e Distillazione a Blocchi

other · 2026-05-18

I ricercatori propongono un metodo per generalizzare l'attenzione a blocchi per scenari a lungo contesto come il RAG. Hanno creato SemanticSeg, un dataset di oltre 30.000 istanze in 16 categorie (libri, codice, testo web, conversazioni) con lunghezze testuali da 2.000 a 32.000 token. Un segmentatore leggero viene addestrato per suddividere il testo in blocchi allineati all'umano. La distillazione a blocchi viene introdotta come un framework di addestramento efficiente che evita il degrado delle prestazioni. Il lavoro affronta la difficoltà di segmentazione e l'inefficienza del fine-tuning.

Fatti principali

  • Il dataset SemanticSeg contiene oltre 30.000 istanze in 16 categorie
  • Le lunghezze testuali vanno da 2.000 a 32.000 token
  • Le categorie includono libri, codice, testo web e conversazioni
  • Un segmentatore leggero viene addestrato per la partizione automatica del testo
  • La distillazione a blocchi è proposta come un framework di addestramento più efficiente
  • Il metodo mira al riutilizzo della cache KV in scenari RAG a lungo contesto
  • L'attenzione a blocchi elabora l'input come blocchi separati senza attenzione reciproca
  • L'approccio mira a superare le sfide di segmentazione e fine-tuning

Entità

Istituzioni

  • arXiv

Fonti