STEF: Un Framework di Valutazione Text-to-SQL Nativo per la Produzione

other · 2026-05-01

Un nuovo articolo di ricerca introduce STEF (Schema-agnostic Text-to-SQL Evaluation Framework), un sistema progettato per valutare l'accuratezza di Text-to-SQL (T2SQL) in ambienti di produzione senza richiedere query di verità o schema del database. Gli attuali benchmark si basano su corrispondenza SQL basata su regole o parser semantici dipendenti dallo schema, che sono raramente disponibili nelle implementazioni reali, portando a un degrado silenzioso della qualità. STEF opera esclusivamente su input in linguaggio naturale—la domanda dell'utente, una riformulazione arricchita e l'SQL generato—estraendo specifiche semantiche da entrambi per produrre caratteristiche normalizzate per la valutazione. Il framework affronta il divario fondamentale tra le metodologie di valutazione esistenti e i vincoli di produzione, offrendo un meccanismo di feedback per il miglioramento continuo. L'articolo è disponibile su arXiv con ID 2604.28049.

Fatti principali

STEF sta per Schema-agnostic Text-to-SQL Evaluation Framework.
Valuta l'accuratezza di T2SQL senza query di verità o schema del database.
I metodi di valutazione attuali presuppongono l'accesso a uno schema strutturato e a query di riferimento.
Gli agenti T2SQL in produzione mancano di meccanismi di feedback per il miglioramento continuo.
STEF utilizza input in linguaggio naturale: domanda dell'utente, riformulazione arricchita e SQL generato.
Estrae specifiche semantiche sia dalle rappresentazioni in linguaggio naturale che da quelle SQL.
L'articolo è pubblicato su arXiv con ID 2604.28049.
Il framework è progettato per la valutazione nativa in produzione.

STEF: Un Framework di Valutazione Text-to-SQL Nativo per la Produzione

Fatti principali

Entità

Istituzioni

Fonti