Materializzazione Tardiva con Versioni per l'Addestramento di Sequenze Ultra-Lunghe nei Sistemi di Raccomandazione su Larga Scala
Un nuovo paradigma chiamato materializzazione tardiva con versioni affronta i colli di bottiglia di archiviazione e I/O nell'addestramento di modelli di raccomandazione deep learning (DLRM) con cronologia di interazione utente ultra-lunga (UIH). L'approccio standard del settore 'Fat Row' pre-materializza le sequenze in ogni esempio di addestramento, causando ridondanza dei dati che mette a dura prova l'infrastruttura, specialmente in ambienti multi-tenant. Il sistema proposto archivia UIH una volta in un livello normalizzato e immutabile e ricostruisce le sequenze just-in-time durante l'addestramento utilizzando puntatori versionati leggeri. Garantisce la coerenza Online-to-Offline (O2O) tramite un protocollo biforcato che impedisce la fuga di informazioni future tra addestramento in streaming e batch, mentre un design ottimizzato per la lettura migliora ulteriormente l'efficienza.
Fatti principali
- arXiv:2604.24806v1
- Tipo di annuncio: cross
- I moderni modelli di raccomandazione deep learning (DLRM) seguono leggi di scala con la lunghezza della sequenza
- Il paradigma standard del settore 'Fat Row' pre-materializza le sequenze in ogni esempio di addestramento
- La ridondanza dei dati è amplificata in ambienti multi-tenant
- La materializzazione tardiva con versioni elimina la ridondanza archiviando UIH una volta in un livello normalizzato e immutabile
- Ricostruisce le sequenze just-in-time durante l'addestramento tramite puntatori versionati leggeri
- Il protocollo biforcato garantisce la coerenza Online-to-Offline (O2O)
Entità
Istituzioni
- arXiv