STEF: Un Framework di Valutazione Text-to-SQL Nativo per la Produzione
Un nuovo articolo di ricerca introduce STEF (Schema-agnostic Text-to-SQL Evaluation Framework), un sistema progettato per valutare l'accuratezza di Text-to-SQL (T2SQL) in ambienti di produzione senza richiedere query di verità o schema del database. Gli attuali benchmark si basano su corrispondenza SQL basata su regole o parser semantici dipendenti dallo schema, che sono raramente disponibili nelle implementazioni reali, portando a un degrado silenzioso della qualità. STEF opera esclusivamente su input in linguaggio naturale—la domanda dell'utente, una riformulazione arricchita e l'SQL generato—estraendo specifiche semantiche da entrambi per produrre caratteristiche normalizzate per la valutazione. Il framework affronta il divario fondamentale tra le metodologie di valutazione esistenti e i vincoli di produzione, offrendo un meccanismo di feedback per il miglioramento continuo. L'articolo è disponibile su arXiv con ID 2604.28049.
Fatti principali
- STEF sta per Schema-agnostic Text-to-SQL Evaluation Framework.
- Valuta l'accuratezza di T2SQL senza query di verità o schema del database.
- I metodi di valutazione attuali presuppongono l'accesso a uno schema strutturato e a query di riferimento.
- Gli agenti T2SQL in produzione mancano di meccanismi di feedback per il miglioramento continuo.
- STEF utilizza input in linguaggio naturale: domanda dell'utente, riformulazione arricchita e SQL generato.
- Estrae specifiche semantiche sia dalle rappresentazioni in linguaggio naturale che da quelle SQL.
- L'articolo è pubblicato su arXiv con ID 2604.28049.
- Il framework è progettato per la valutazione nativa in produzione.
Entità
Istituzioni
- arXiv