Distribuzioni Sintetiche dei Compiti Chiave per la Qualità dei Modelli Fondamentali Tabulari

publication · 2026-05-20

Un nuovo studio da arXiv (2605.18971) indaga cosa determina la qualità dei modelli fondamentali tabulari, scoprendo che le distribuzioni sintetiche di pre-addestramento sono la fonte primaria di bias induttivi, a differenza dei modelli linguistici o visivi. Gli autori sostengono che i priori sintetici standard sono eccessivamente idealizzati, omettendo irregolarità e modalità di fallimento cruciali per la robustezza in fase di implementazione. Introducono O'Prior, un prior di realismo composizionale con quattro componenti: un meta-generatore SCM gerarchico per diverse famiglie funzionali, un motore di realismo modulare per marginali eterogenee e dati mancanti, un modulo esplicito di stress per confondimento e disallineamento supporto-query, e un protocollo di generazione basato su curriculum e sicuro contro le perdite. Mantenendo costanti architettura, ottimizzatore e budget computazionale, lo studio isola la progettazione del prior come variabile chiave. La ricerca evidenzia la necessità di dati sintetici più realistici per migliorare le prestazioni dei modelli tabulari.

Fatti principali

Studio da arXiv 2605.18971
I modelli fondamentali tabulari acquisiscono bias induttivi dalle distribuzioni sintetiche di pre-addestramento
I priori sintetici standard omettono irregolarità e modalità di fallimento
O'Prior introdotto come prior di realismo composizionale
O'Prior ha quattro componenti: meta-generatore SCM, motore di realismo, modulo di stress, protocollo curriculum
Architettura, ottimizzatore e budget computazionale mantenuti fissi
Progettazione del prior isolata come variabile scientifica

Distribuzioni Sintetiche dei Compiti Chiave per la Qualità dei Modelli Fondamentali Tabulari

Fatti principali

Entità

Istituzioni

Fonti