ARTFEED — Contemporary Art Intelligence

FINER-SQL: Feedback Fine-Grained Potenzia Piccoli Modelli Linguistici per Text-to-SQL

ai-technology · 2026-05-07

FINER-SQL è un framework che utilizza l'apprendimento per rinforzo per migliorare i piccoli modelli linguistici (SLM) nella generazione di Text-to-SQL. Sebbene i grandi modelli linguistici (LLM) abbiano fatto progressi in questo ambito, affrontano sfide come elevati costi computazionali, problemi di latenza e rischi per la privacy dei dati, rendendoli inadatti a vari usi pratici. Mentre gli SLM facilitano un'implementazione efficiente e privata on-premise, spesso mostrano ragionamento inadeguato e scarsa aderenza alle istruzioni. Le tecniche tradizionali di apprendimento per rinforzo che si basano su ricompense binarie sparse (0/1) non forniscono segnali di apprendimento efficaci per output SQL errati, portando a un addestramento instabile. FINER-SQL risolve queste sfide offrendo ricompense dense e interpretabili che forniscono feedback continuo, anche per risultati errati, ed è basato sull'ottimizzazione delle politiche relative di gruppo per una maggiore scalabilità e riusabilità dell'addestramento.

Fatti principali

  • 1. FINER-SQL è un framework di apprendimento per rinforzo per piccoli modelli linguistici (SLM) in Text-to-SQL.
  • 2. I grandi modelli linguistici (LLM) hanno guidato i progressi in Text-to-SQL ma hanno costi computazionali elevati, latenza e problemi di privacy.
  • 3. Gli SLM consentono un'implementazione efficiente e privata on-premise ma hanno ragionamento debole e scarsa aderenza alle istruzioni.
  • 4. L'apprendimento per rinforzo convenzionale utilizza ricompense binarie sparse (0/1) che forniscono poco segnale di apprendimento per SQL errati.
  • 5. FINER-SQL sostituisce la supervisione sparsa con ricompense dense e interpretabili che offrono feedback continuo.
  • 6. Il framework è basato sull'ottimizzazione delle politiche relative di gruppo.
  • 7. FINER-SQL mira a potenziare gli SLM per Text-to-SQL senza gli svantaggi degli LLM.
  • 8. L'approccio è scalabile e riutilizzabile.

Entità

Istituzioni

  • arXiv

Fonti