Instabilità del Recupero di Tabelle tra Serializzazioni Affrontata con la Media dei Centroidi

publication · 2026-04-29

Una recente indagine pubblicata su arXiv (2604.24040) indica che i sistemi basati su transformer per il recupero di tabelle mostrano una significativa sensibilità ai formati di serializzazione. Quando le tabelle strutturate vengono convertite in sequenze di token, formati semanticamente simili, come CSV, TSV, HTML, Markdown e DDL, producono embedding e risultati di recupero marcatamente diversi attraverso vari benchmark e tipi di retriever. I ricercatori suggeriscono di considerare gli embedding di serializzazione come rappresentazioni rumorose di un segnale semantico unificato, sostenendo l'uso del loro centroide come rappresentazione target standard. Mediando i centroidi, le variazioni specifiche del formato vengono minimizzate, consentendo il recupero del contenuto semantico condiviso tra diverse serializzazioni, in particolare quando i cambiamenti indotti dal formato variano tra le tabelle. Le rappresentazioni centroidi dimostrano prestazioni superiori rispetto ai singoli formati nelle valutazioni aggregate a coppie su MPNet e altri modelli retriever.

Fatti principali

Il paper arXiv 2604.24040 affronta l'instabilità del recupero di tabelle
I sistemi basati su transformer appiattiscono le tabelle in sequenze di token
Serializzazioni semanticamente equivalenti (CSV, TSV, HTML, Markdown, DDL) producono embedding diversi
Instabilità osservata attraverso molteplici benchmark e famiglie di retriever
Il metodo proposto utilizza la media dei centroidi degli embedding di serializzazione
Il centroide sopprime la variazione specifica del formato
Il centroide supera i singoli formati nei confronti a coppie
Metodo testato su MPNet e altri retriever

Instabilità del Recupero di Tabelle tra Serializzazioni Affrontata con la Media dei Centroidi

Fatti principali

Entità

Istituzioni

Fonti