ARTFEED — Contemporary Art Intelligence

Imbracatura di prontezza LLM: valutazione, osservabilità e gate CI per applicazioni LLM/RAG

other · 2026-05-23

Un recente articolo, arXiv:2603.27355, presenta un'imbracatura di prontezza su misura per applicazioni LLM e RAG. Questo sistema innovativo integra benchmark automatizzati, OpenTelemetry per il monitoraggio e gate di qualità CI nel processo decisionale per i deployment. Valuta metriche chiave come successo del flusso di lavoro, aderenza alle policy, fondatezza, tasso di hit del recupero, costi e latenza p95 per creare punteggi di prontezza ponderati per scenario con frontiere di Pareto. I test su flussi di lavoro di instradamento ticket e compiti di fondatezza BEIR, inclusi SciFact e FiQA, su tutte le 162 celle della matrice Azure hanno mostrato che la prontezza ha molte dimensioni. Ad esempio, in sla-first a k=5, gpt-4.1-mini ha performato bene in prontezza e affidabilità, mentre gpt-5.2 ha avuto problemi di latenza. Inoltre, i gate di regressione per l'instradamento ticket filtrano efficacemente i prompt non sicuri.

Fatti principali

  • arXiv:2603.27355 introduce un'imbracatura di prontezza per applicazioni LLM e RAG.
  • L'imbracatura combina benchmark automatizzati, osservabilità OpenTelemetry e gate di qualità CI.
  • Le metriche includono successo del flusso di lavoro, conformità alle policy, fondatezza, tasso di hit del recupero, costo e latenza p95.
  • I punteggi di prontezza sono ponderati per scenario con frontiere di Pareto.
  • La valutazione copre flussi di lavoro di instradamento ticket e compiti di fondatezza BEIR (SciFact e FiQA).
  • Copertura completa della matrice Azure di 162/162 celle valide tra dataset, scenari, profondità di recupero, semi e modelli.
  • Su FiQA in sla-first a k=5, gpt-4.1-mini è leader in prontezza e fedeltà.
  • gpt-5.2 paga un costo di latenza sostanziale su FiQA.
  • Su SciFact, i modelli sono più vicini in qualità ma ancora separabili operativamente.
  • I gate di regressione per l'instradamento ticket rifiutano costantemente prompt non sicuri.

Entità

Istituzioni

  • arXiv
  • Azure
  • OpenTelemetry

Fonti