TopBench valuta i LLM nel ragionamento implicito su tabelle
TopBench è stato lanciato da ricercatori come benchmark progettato per valutare i modelli linguistici di grandi dimensioni nella previsione e nel ragionamento impliciti nell'ambito del question answering su tabelle. Questo benchmark comprende 779 campioni suddivisi in quattro sotto-compiti distinti: previsione a punto singolo, presa di decisioni, analisi degli effetti del trattamento e filtraggio complesso. I modelli devono produrre output che includano sia testo di ragionamento che tabelle strutturate. Le valutazioni condotte tramite flussi di lavoro testuali e agentivi rivelano che i modelli esistenti spesso faticano a riconoscere l'intento in questi scenari predittivi.
Fatti principali
- TopBench è un benchmark per la previsione e il ragionamento impliciti nel question answering su tabelle.
- Contiene 779 campioni in quattro sotto-compiti.
- I sotto-compiti includono previsione a punto singolo, presa di decisioni, analisi degli effetti del trattamento e filtraggio complesso.
- I modelli devono generare output che comprendano testo di ragionamento e tabelle strutturate.
- Le valutazioni sono state condotte con flussi di lavoro testuali e agentivi.
- I modelli attuali spesso hanno difficoltà con il riconoscimento dell'intento.
- Il benchmark affronta query che richiedono inferenza da pattern storici.
- La ricerca è pubblicata su arXiv con ID 2604.28076.
Entità
—