Sheet as Token: un framework potenziato da grafi per la comprensione di fogli di calcolo multi-foglio
Un recente articolo di ricerca introduce Sheet as Token, un framework potenziato da grafi per il recupero di fogli di calcolo multi-foglio. Questo approccio considera ogni foglio di lavoro come un'entità semantica coesa, estraendo record sensibili allo schema da elementi come nomi di foglio, intestazioni di colonna, valori rappresentativi e caratteristiche di layout, codificando successivamente ogni foglio di lavoro in un token denso compatto. Quando viene presentata una query in linguaggio naturale, un Graph Retriever genera un grafo candidato specifico per la query per migliorare la precisione del recupero. Questo studio affronta le difficoltà nella comprensione di cartelle di lavoro su larga scala per agenti di analisi dei dati basati su modelli linguistici, dove le informazioni pertinenti sono spesso distribuite su vari fogli con schemi diversi e connessioni implicite. A differenza dei metodi di recupero esistenti che suddividono i fogli di calcolo in righe, colonne o blocchi, potenzialmente frammentando i fogli di lavoro, Sheet as Token mira a mantenere la semantica complessiva facilitando al contempo un recupero efficiente. L'articolo è accessibile su arXiv con l'identificatore 2605.05811.
Fatti principali
- Sheet as Token è un framework potenziato da grafi per il recupero di fogli di calcolo multi-foglio.
- Ogni foglio di lavoro è trattato come un'unità semantica unificata.
- I record sensibili allo schema vengono estratti da nomi di foglio, intestazioni di colonna, valori rappresentativi e caratteristiche di layout.
- Ogni foglio di lavoro è codificato in un token denso compatto.
- Un Graph Retriever costruisce un grafo candidato specifico per la query.
- Il metodo affronta le sfide nella comprensione di fogli di calcolo su larga scala per agenti di analisi dei dati basati su modelli linguistici.
- Gli approcci esistenti scompongono i fogli di calcolo in righe, colonne o blocchi, il che può frammentare i fogli di lavoro.
- L'articolo è disponibile su arXiv con l'identificatore 2605.05811.
Entità
Istituzioni
- arXiv