ContextRAG: Costruzione di Grafi senza LLM per Sistemi RAG
ContextRAG è un sistema di generazione aumentata da recupero (RAG) che utilizza una struttura basata su grafi senza dipendere da grandi modelli linguistici (LLM) per estrarre entità o relazioni. Impiega la quantizzazione residua k-means e l'Analisi dei Concetti Formali utilizzando la logica residuata di Lukasiewicz per creare un grafo di concetti fuzzy a partire da embedding di chunk. I nodi di contesto, derivati da operazioni di bridge e meet, sono generati attraverso soft fuzzy join. In un sottoinsieme UltraDomain di 130 task, ContextRAG ha richiesto solo 30 chiamate LLM e 22.073 token per costruire il suo indice, a fronte di una variante locale HiRAG che ha richiesto 870 chiamate e 3,54 milioni di token per un sottoinsieme di 20 task. Questo metodo riduce notevolmente i costi di token e tempo, migliorando la scalabilità per corpora estesi.
Fatti principali
- 1. ContextRAG costruisce la topologia del grafo senza estrazione di entità o relazioni basata su LLM.
- 2. Utilizza la quantizzazione residua k-means e l'Analisi dei Concetti Formali con la logica residuata di Lukasiewicz.
- 3. Deriva un grafo di concetti fuzzy sugli embedding dei chunk.
- 4. I nodi di contesto derivati da bridge e meet sono indotti da soft fuzzy join e meet.
- 5. Testato su un sottoinsieme UltraDomain di 130 task.
- 6. Indice costruito con 30 chiamate LLM e 22.073 token.
- 7. HiRAG locale ha richiesto 870 chiamate di indicizzazione e 3,54 milioni di token su un sottoinsieme di 20 task.
- 8. Riduce i costi di token e tempo per i sistemi RAG basati su grafi.
Entità
—