Instabilità del Recupero di Tabelle tra Serializzazioni Affrontata con la Media dei Centroidi
Una recente indagine pubblicata su arXiv (2604.24040) indica che i sistemi basati su transformer per il recupero di tabelle mostrano una significativa sensibilità ai formati di serializzazione. Quando le tabelle strutturate vengono convertite in sequenze di token, formati semanticamente simili, come CSV, TSV, HTML, Markdown e DDL, producono embedding e risultati di recupero marcatamente diversi attraverso vari benchmark e tipi di retriever. I ricercatori suggeriscono di considerare gli embedding di serializzazione come rappresentazioni rumorose di un segnale semantico unificato, sostenendo l'uso del loro centroide come rappresentazione target standard. Mediando i centroidi, le variazioni specifiche del formato vengono minimizzate, consentendo il recupero del contenuto semantico condiviso tra diverse serializzazioni, in particolare quando i cambiamenti indotti dal formato variano tra le tabelle. Le rappresentazioni centroidi dimostrano prestazioni superiori rispetto ai singoli formati nelle valutazioni aggregate a coppie su MPNet e altri modelli retriever.
Fatti principali
- Il paper arXiv 2604.24040 affronta l'instabilità del recupero di tabelle
- I sistemi basati su transformer appiattiscono le tabelle in sequenze di token
- Serializzazioni semanticamente equivalenti (CSV, TSV, HTML, Markdown, DDL) producono embedding diversi
- Instabilità osservata attraverso molteplici benchmark e famiglie di retriever
- Il metodo proposto utilizza la media dei centroidi degli embedding di serializzazione
- Il centroide sopprime la variazione specifica del formato
- Il centroide supera i singoli formati nei confronti a coppie
- Metodo testato su MPNet e altri retriever
Entità
Istituzioni
- arXiv