Strategie di Chunking per il Recupero del Codice Legale Tedesco
Uno studio recente pubblicato su arXiv esamina le strategie di chunking per la generazione aumentata da recupero, concentrandosi sul diritto statutario tedesco, in particolare sul Codice Civile Tedesco. La ricerca ha valutato vari metodi di chunking, tra cui la segmentazione per sezioni, blocchi a dimensione fissa e clustering semantico, tra gli altri. I ricercatori hanno applicato queste tecniche a un dataset progettato per il question-answering legale che conteneva etichette di sezione gold standard. Hanno analizzato metriche come recall, velocità di elaborazione delle query, durata dell'indicizzazione e requisiti di archiviazione. I risultati hanno rivelato che i metodi di chunking che aderivano strettamente alla struttura legale, in particolare sezioni e sottosezioni, hanno ottenuto le migliori prestazioni in termini di recall, mentre i metodi meno sofisticati erano più efficienti dal punto di vista computazionale.
Fatti principali
- Lo studio indaga le strategie di chunking per la generazione aumentata da recupero sul diritto statutario tedesco
- Utilizza il Codice Civile Tedesco come corpus di riferimento strutturato
- Confronta approcci di segmentazione: unità strutturali, finestre a dimensione fissa, chunking contestuale, clustering semantico, stile Lumber, basato su RAPTOR
- Valutato su un dataset di question-answering legale con etichette gold a livello di sezione
- Misura recall, latenza delle query, tempo di costruzione dell'indice, requisiti di archiviazione
- Il chunking allineato alla struttura legale raggiunge il recall più alto
- Approcci complessi che sovrascrivono la struttura ottengono risultati peggiori
- I metodi più semplici offrono una migliore efficienza computazionale rispetto alle tecniche intensive basate su LLM
Entità
Istituzioni
- arXiv