Corpus2Skill: distillare la conoscenza aziendale in abilità navigabili per agenti per QA e RAG
Una tecnica innovativa chiamata Corpus2Skill converte raccolte di documenti in directory strutturate di abilità per agenti LLM, facilitando l'esplorazione anziché la semplice ricerca. Questo metodo supera le limitazioni del Retrieval-Augmented Generation (RAG) fornendo agli agenti una visione d'insieme del corpus, consentendo loro di approfondire argomenti specifici, tornare indietro da percorsi meno fruttuosi e sintetizzare informazioni tra diversi rami. Il processo di compilazione raggruppa sistematicamente i documenti, produce riassunti generati da LLM a vari livelli e costruisce un albero di file di abilità navigabile. Durante l'operatività, l'agente sfrutta questa gerarchia per determinare dove cercare e accedere ai documenti completi tramite i loro ID. L'approccio è stato testato su WixQA, un dataset aziendale per QA, dimostrando miglioramenti rispetto al RAG tradizionale.
Fatti principali
- 1. Corpus2Skill distilla corpora di documenti in directory di abilità gerarchiche offline.
- 2. Il metodo tratta gli agenti LLM come navigatori attivi anziché consumatori passivi dei risultati di ricerca.
- 3. Il pipeline di compilazione raggruppa iterativamente i documenti e genera riassunti scritti da LLM a ogni livello.
- 4. Il risultato è un albero di file di abilità navigabili.
- 5. Al momento del servizio, l'agente riceve una visione d'insieme del corpus.
- 6. L'agente può approfondire rami tematici tramite riassunti progressivamente più dettagliati.
- 7. L'agente può tornare indietro da percorsi improduttivi e combinare prove tra diversi rami.
- 8. Il metodo è valutato su WixQA, un dataset aziendale per QA.
Entità
—