ARTFEED — Contemporary Art Intelligence

Recupero che Preserva la Struttura per Documenti Semi-Strutturati

other · 2026-04-25

Una nuova pipeline di recupero da arXiv (2604.20849) affronta la discrepanza tra documenti strutturati ad albero come HTML e modelli di embedding piatti. Il sistema SPIRE rappresenta i candidati come sottodocumenti che preservano l'identità strutturale, utilizzando primitive documentali come percorsi, insiemi di percorsi e pruning. Introduce contestualizzazione globale e locale per mantenere l'interpretabilità. Il metodo mira a migliorare l'estrazione di prove pronte per la citazione da fonti semi-strutturate.

Fatti principali

  • 1. ID del paper: arXiv:2604.20849
  • 2. Tipo di annuncio: cross
  • 3. Focus sulla generazione aumentata da recupero su fonti semi-strutturate
  • 4. Propone una pipeline di recupero sensibile alla struttura
  • 5. Concetto chiave: sottodocumenti come selezioni indirizzabili
  • 6. Definisce primitive documentali: percorsi, insiemi di percorsi, estrazione di sottodocumenti tramite pruning
  • 7. Due meccanismi di contestualizzazione: globale e locale
  • 8. Affronta la discrepanza tra struttura del documento e modelli basati su sequenze piatte

Entità

Istituzioni

  • arXiv

Fonti