Imbracatura di prontezza LLM: valutazione, osservabilità e gate CI per applicazioni LLM/RAG
Un recente articolo, arXiv:2603.27355, presenta un'imbracatura di prontezza su misura per applicazioni LLM e RAG. Questo sistema innovativo integra benchmark automatizzati, OpenTelemetry per il monitoraggio e gate di qualità CI nel processo decisionale per i deployment. Valuta metriche chiave come successo del flusso di lavoro, aderenza alle policy, fondatezza, tasso di hit del recupero, costi e latenza p95 per creare punteggi di prontezza ponderati per scenario con frontiere di Pareto. I test su flussi di lavoro di instradamento ticket e compiti di fondatezza BEIR, inclusi SciFact e FiQA, su tutte le 162 celle della matrice Azure hanno mostrato che la prontezza ha molte dimensioni. Ad esempio, in sla-first a k=5, gpt-4.1-mini ha performato bene in prontezza e affidabilità, mentre gpt-5.2 ha avuto problemi di latenza. Inoltre, i gate di regressione per l'instradamento ticket filtrano efficacemente i prompt non sicuri.
Fatti principali
- arXiv:2603.27355 introduce un'imbracatura di prontezza per applicazioni LLM e RAG.
- L'imbracatura combina benchmark automatizzati, osservabilità OpenTelemetry e gate di qualità CI.
- Le metriche includono successo del flusso di lavoro, conformità alle policy, fondatezza, tasso di hit del recupero, costo e latenza p95.
- I punteggi di prontezza sono ponderati per scenario con frontiere di Pareto.
- La valutazione copre flussi di lavoro di instradamento ticket e compiti di fondatezza BEIR (SciFact e FiQA).
- Copertura completa della matrice Azure di 162/162 celle valide tra dataset, scenari, profondità di recupero, semi e modelli.
- Su FiQA in sla-first a k=5, gpt-4.1-mini è leader in prontezza e fedeltà.
- gpt-5.2 paga un costo di latenza sostanziale su FiQA.
- Su SciFact, i modelli sono più vicini in qualità ma ancora separabili operativamente.
- I gate di regressione per l'instradamento ticket rifiutano costantemente prompt non sicuri.
Entità
Istituzioni
- arXiv
- Azure
- OpenTelemetry