DRIP-R: Valutare i LLM sull'ambiguità delle politiche di vendita al dettaglio nel mondo reale

ai-technology · 2026-05-11

Il nuovo benchmark, DRIP-R, valuta rigorosamente le capacità decisionali degli agenti basati su LLM in presenza di incertezze politiche reali nel contesto della vendita al dettaglio. A differenza dei benchmark attuali che si basano su regole ben definite, DRIP-R incorpora scenari con resi ambigui che possono essere interpretati in vari modi. Presenta situazioni di ambiguità politica appositamente selezionate, profili cliente realistici, una simulazione conversazionale completa che consente la chiamata di strumenti e un sistema di valutazione multi-giudice incentrato sulla conformità alle politiche, l'efficacia del dialogo, la coerenza comportamentale e la qualità della risoluzione. I risultati sperimentali rivelano che i modelli leader spesso hanno interpretazioni diverse delle stesse politiche, sottolineando un significativo divario nella valutazione.

Fatti principali

DRIP-R è un benchmark per il processo decisionale in condizioni di ambiguità politica reale nel retail.
Sfrutta le ambiguità delle politiche di vendita al dettaglio reali senza un'unica risoluzione corretta.
Include scenari di reso curati, personaggi cliente e simulazione conversazionale.
La valutazione multi-giudice copre l'aderenza alle politiche, la qualità del dialogo, l'allineamento comportamentale e la qualità della risoluzione.
I modelli all'avanguardia sono fondamentalmente in disaccordo su politiche identiche.
I benchmark esistenti per agenti presuppongono politiche non ambigue e ben specificate.
Gli agenti basati su LLM sono sempre più utilizzati per attività di vendita al dettaglio di routine.
Il benchmark colma un divario critico nella valutazione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-11