LARAG: Recupero Consapevole dei Collegamenti per Sistemi RAG in Documentazione Tecnica
Una nuova strategia di recupero chiamata LARAG (Link-Aware RAG) migliora la qualità delle risposte nei sistemi Retrieval-Augmented Generation sfruttando le strutture di collegamento ipertestuale nella documentazione HTML. A differenza dei recuperatori standard basati su embedding che trattano i corpora come passaggi piatti, LARAG codifica le relazioni dei collegamenti ipertestuali come metadati nelle rappresentazioni dei chunk, consentendo un recupero simile a un grafo di contenuti localmente rilevanti. Testato su venti domande progettate da esperti sulla documentazione tecnica della piattaforma Rulex con quattro strategie di prompting, LARAG ha ottenuto il più alto BERTScore F1 recuperando meno chunk. L'approccio è leggero e sfrutta i collegamenti ipertestuali già presenti nei manuali tecnici.
Fatti principali
- LARAG sta per Link-Aware Retrieval-Augmented Generation
- Utilizza la struttura dei collegamenti ipertestuali dalla documentazione HTML
- Codifica le relazioni dei collegamenti ipertestuali come metadati nelle rappresentazioni dei chunk
- Ha ottenuto il più alto BERTScore F1 sulle query della piattaforma Rulex
- Recupera meno chunk rispetto ai metodi standard
- Testato su venti domande progettate da esperti
- Sono state valutate quattro strategie di prompting
- Approccio leggero basato su collegamenti ipertestuali definiti dall'autore
Entità
Istituzioni
- Rulex Platform