Materializzazione Tardiva con Versioni per l'Addestramento di Sequenze Ultra-Lunghe nei Sistemi di Raccomandazione su Larga Scala

other · 2026-04-30

Un nuovo paradigma chiamato materializzazione tardiva con versioni affronta i colli di bottiglia di archiviazione e I/O nell'addestramento di modelli di raccomandazione deep learning (DLRM) con cronologia di interazione utente ultra-lunga (UIH). L'approccio standard del settore 'Fat Row' pre-materializza le sequenze in ogni esempio di addestramento, causando ridondanza dei dati che mette a dura prova l'infrastruttura, specialmente in ambienti multi-tenant. Il sistema proposto archivia UIH una volta in un livello normalizzato e immutabile e ricostruisce le sequenze just-in-time durante l'addestramento utilizzando puntatori versionati leggeri. Garantisce la coerenza Online-to-Offline (O2O) tramite un protocollo biforcato che impedisce la fuga di informazioni future tra addestramento in streaming e batch, mentre un design ottimizzato per la lettura migliora ulteriormente l'efficienza.

Fatti principali

arXiv:2604.24806v1
Tipo di annuncio: cross
I moderni modelli di raccomandazione deep learning (DLRM) seguono leggi di scala con la lunghezza della sequenza
Il paradigma standard del settore 'Fat Row' pre-materializza le sequenze in ogni esempio di addestramento
La ridondanza dei dati è amplificata in ambienti multi-tenant
La materializzazione tardiva con versioni elimina la ridondanza archiviando UIH una volta in un livello normalizzato e immutabile
Ricostruisce le sequenze just-in-time durante l'addestramento tramite puntatori versionati leggeri
Il protocollo biforcato garantisce la coerenza Online-to-Offline (O2O)

Materializzazione Tardiva con Versioni per l'Addestramento di Sequenze Ultra-Lunghe nei Sistemi di Raccomandazione su Larga Scala

Fatti principali

Entità

Istituzioni

Fonti