Pipeline Riutilizzabile per la Valutazione di Riassunti di Riunioni Generati dall'IA
È stato sviluppato un nuovo sistema di valutazione progettato per l'IA generativa, specificamente per riassumere riunioni. Questa pipeline opera attraverso cinque fasi distinte: acquisizione delle fonti, costruzione di riferimenti strutturati, generazione di candidati, valutazione strutturata e report dei risultati. A differenza dei valutatori autonomi, utilizza sia i dati reali che gli output del valutatore come artefatti coerenti, facilitando l'analisi e la valutazione statistica. Il sistema è stato valutato utilizzando un dataset di 114 riunioni provenienti da city_council, private_data e whitehouse_press_briefings, producendo 340 coppie riunione-modello e 680 valutazioni con gpt-4.1-mini, gpt-5-mini e gpt-5.1. gpt-4.1-mini ha ottenuto la migliore accuratezza media con 0,583, mentre gpt-5.1 ha mostrato una completezza superiore con 0,886 e una copertura con 0,942. Il pacchetto di artefatti è ora pubblico.
Fatti principali
- Pipeline di valutazione riutilizzabile per applicazioni di IA generativa
- Istanziata per riassunti di riunioni generati dall'IA
- Cinque fasi: acquisizione delle fonti, costruzione di riferimenti strutturati, generazione di candidati, valutazione strutturata, report
- Tratta i dati reali e gli output del valutatore come artefatti tipizzati e persistenti
- Benchmark su 114 riunioni da city_council, private_data, whitehouse_press_briefings
- 340 coppie riunione-modello e 680 esecuzioni del giudice
- Modelli: gpt-4.1-mini, gpt-5-mini, gpt-5.1
- gpt-4.1-mini ha ottenuto la più alta accuratezza media (0,583)
- gpt-5.1 ha guidato in completezza (0,886) e copertura (0,942)
- Pacchetto di artefatti pubblico rilasciato
Entità
Istituzioni
- arXiv