Auto-ARGUE: strumento di valutazione della generazione di report basato su LLM
Un nuovo strumento chiamato Auto-ARGUE è stato sviluppato da ricercatori, utilizzando il framework ARGUE per valutare la generazione di report all'interno di sistemi di retrieval-augmented generation (RAG). Questa innovazione colma una lacuna nella disponibilità di strumenti di valutazione open-source specifici per la generazione di report supportati da citazioni. Le valutazioni condotte sul task pilota di generazione report di TREC 2024 NeuCLIR e su due task del track RAG di TREC 2024 rivelano forti correlazioni a livello di sistema con le valutazioni umane. Inoltre, il team ha lanciato ARGUE-Viz, un'applicazione web progettata per la visualizzazione e l'analisi dettagliata dei giudizi e dei punteggi di Auto-ARGUE. Questa ricerca è stata presentata su arXiv nel campo del information retrieval informatico.
Fatti principali
- Auto-ARGUE è un'implementazione basata su LLM del framework ARGUE.
- Valuta la generazione di report nei sistemi RAG.
- Mancavano strumenti open-source per la valutazione della generazione di report.
- L'analisi è stata eseguita sui task TREC 2024 NeuCLIR e RAG track.
- I risultati mostrano buone correlazioni a livello di sistema con i giudizi umani.
- ARGUE-Viz è un'app web per visualizzazione e analisi.
- La sottomissione è su arXiv nel campo del information retrieval informatico.
- Lo strumento si concentra sulla generazione di report supportati da citazioni.
Entità
Istituzioni
- arXiv
- TREC
- NeuCLIR
- RAG