Nuovo Benchmark FATHOMS-RAG Valuta Pipeline RAG Multimodali
I ricercatori hanno introdotto FATHOMS-RAG, un benchmark per valutare pipeline di generazione aumentata da recupero (RAG) attraverso molteplici modalità. Il framework include un dataset creato da umani di 93 domande che testano l'ingestione di testo, tabelle, immagini e dati cross-modali. Propone inoltre una metrica di richiamo a livello di frase per la correttezza, un classificatore di embedding del vicino più prossimo per rilevare allucinazioni, e valutazioni comparative di due pipeline di recupero open-source e quattro modelli foundation closed-source. Una valutazione umana di terze parti valuta l'allineamento degli output. Il lavoro mira a differenziarsi dai benchmark esistenti focalizzati su singoli aspetti come il recupero.
Fatti principali
- FATHOMS-RAG sta per Framework for the Assessment of Thinking and Observation in Multimodal Systems that use Retrieval Augmented Generation.
- Il dataset contiene 93 domande create da umani.
- Le domande valutano l'ingestione di testo, tabelle, immagini e dati cross-modali attraverso uno o più documenti.
- Una metrica di richiamo a livello di frase misura la correttezza.
- Un classificatore di embedding del vicino più prossimo identifica potenziali allucinazioni.
- Sono state valutate due pipeline di recupero open-source e quattro modelli foundation closed-source.
- Una valutazione umana di terze parti ha valutato l'allineamento degli output.
- Il benchmark è progettato per valutare l'intera pipeline RAG, non solo il recupero.
Entità
—