ARTFEED — Contemporary Art Intelligence

Pipeline Riutilizzabile per la Valutazione di Riassunti di Riunioni Generati dall'IA

ai-technology · 2026-04-25

È stato sviluppato un nuovo sistema di valutazione progettato per l'IA generativa, specificamente per riassumere riunioni. Questa pipeline opera attraverso cinque fasi distinte: acquisizione delle fonti, costruzione di riferimenti strutturati, generazione di candidati, valutazione strutturata e report dei risultati. A differenza dei valutatori autonomi, utilizza sia i dati reali che gli output del valutatore come artefatti coerenti, facilitando l'analisi e la valutazione statistica. Il sistema è stato valutato utilizzando un dataset di 114 riunioni provenienti da city_council, private_data e whitehouse_press_briefings, producendo 340 coppie riunione-modello e 680 valutazioni con gpt-4.1-mini, gpt-5-mini e gpt-5.1. gpt-4.1-mini ha ottenuto la migliore accuratezza media con 0,583, mentre gpt-5.1 ha mostrato una completezza superiore con 0,886 e una copertura con 0,942. Il pacchetto di artefatti è ora pubblico.

Fatti principali

  • Pipeline di valutazione riutilizzabile per applicazioni di IA generativa
  • Istanziata per riassunti di riunioni generati dall'IA
  • Cinque fasi: acquisizione delle fonti, costruzione di riferimenti strutturati, generazione di candidati, valutazione strutturata, report
  • Tratta i dati reali e gli output del valutatore come artefatti tipizzati e persistenti
  • Benchmark su 114 riunioni da city_council, private_data, whitehouse_press_briefings
  • 340 coppie riunione-modello e 680 esecuzioni del giudice
  • Modelli: gpt-4.1-mini, gpt-5-mini, gpt-5.1
  • gpt-4.1-mini ha ottenuto la più alta accuratezza media (0,583)
  • gpt-5.1 ha guidato in completezza (0,886) e copertura (0,942)
  • Pacchetto di artefatti pubblico rilasciato

Entità

Istituzioni

  • arXiv

Fonti