ARTFEED — Contemporary Art Intelligence

ROSE introdotto come metrica incentrata sull'intento per la valutazione NL2SQL

ai-technology · 2026-04-15

È stata introdotta una nuova metrica di valutazione denominata ROSE per superare i limiti nella valutazione dei sistemi Natural Language to SQL (NL2SQL). Le tradizionali metriche di Accuratezza di Esecuzione (EX) stanno diventando meno affidabili a causa della loro sensibilità alle differenze sintattiche, delle difficoltà nell'interpretare domande multiple e della suscettibilità a SQL di riferimento difettosi. ROSE enfatizza se l'SQL previsto risponde accuratamente alle richieste degli utenti piuttosto che basarsi su riferimenti. Utilizza una cascata avversaria Prover-Refuter, dove il SQL Prover valuta la correttezza semantica in base all'intento dell'utente, e l'Adversarial Refuter impiega SQL di riferimento per testare e migliorare queste valutazioni. Nei test sul set di validazione allineato agli esperti ROSE-VEC, ROSE ha raggiunto un accordo quasi del 24% superiore con esperti umani rispetto alla metrica successiva migliore nel coefficiente kappa di Cohen. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2604.12988v1.

Fatti principali

  • ROSE è una metrica di valutazione incentrata sull'intento per soluzioni NL2SQL
  • Le tradizionali metrici di Accuratezza di Esecuzione (EX) stanno diventando sempre meno affidabili
  • EX è sensibile alle variazioni sintattiche e ignora interpretazioni multiple delle domande
  • EX può essere fuorviato da SQL di riferimento errati
  • ROSE si concentra sul fatto che l'SQL previsto risponda alla domanda piuttosto che sulla coerenza con il riferimento
  • ROSE utilizza una cascata avversaria Prover-Refuter
  • SQL Prover valuta la correttezza semantica rispetto all'intento dell'utente in modo indipendente
  • Adversarial Refuter utilizza SQL di riferimento per sfidare e affinare i giudizi
  • ROSE ha ottenuto il miglior accordo con esperti umani sul set di validazione ROSE-VEC
  • ROSE ha superato la metrica successiva migliore di quasi il 24% nel kappa di Cohen

Entità

Istituzioni

  • arXiv

Fonti