Recupero che Preserva la Struttura per Documenti Semi-Strutturati
Una nuova pipeline di recupero da arXiv (2604.20849) affronta la discrepanza tra documenti strutturati ad albero come HTML e modelli di embedding piatti. Il sistema SPIRE rappresenta i candidati come sottodocumenti che preservano l'identità strutturale, utilizzando primitive documentali come percorsi, insiemi di percorsi e pruning. Introduce contestualizzazione globale e locale per mantenere l'interpretabilità. Il metodo mira a migliorare l'estrazione di prove pronte per la citazione da fonti semi-strutturate.
Fatti principali
- 1. ID del paper: arXiv:2604.20849
- 2. Tipo di annuncio: cross
- 3. Focus sulla generazione aumentata da recupero su fonti semi-strutturate
- 4. Propone una pipeline di recupero sensibile alla struttura
- 5. Concetto chiave: sottodocumenti come selezioni indirizzabili
- 6. Definisce primitive documentali: percorsi, insiemi di percorsi, estrazione di sottodocumenti tramite pruning
- 7. Due meccanismi di contestualizzazione: globale e locale
- 8. Affronta la discrepanza tra struttura del documento e modelli basati su sequenze piatte
Entità
Istituzioni
- arXiv