Chronicle: Un Modello Fondazionale Multimodale per la Comprensione Congiunta di Linguaggio e Serie Temporali
Chronicle è un trasformatore decoder-only con 324 milioni di parametri, sviluppato da zero per gestire sia dati di linguaggio naturale che serie temporali all'interno di un quadro coeso. A differenza dei precedenti modelli multimodali che modificano modelli linguistici pre-addestrati dopo l'addestramento iniziale, Chronicle utilizza blocchi trasformatore, meccanismi di attenzione e flussi residui identici per entrambi i tipi di dati. La maggior parte del pre-addestramento coinvolge batch unimodali, facilitando l'emergere di capacità cross-modali attraverso parametri condivisi. Le prestazioni del modello sono valutate rispetto a benchmark sia unimodali che multimodali, colmando una lacuna nella ricerca precedente che confrontava solo modelli multimodali. Il documento è disponibile su arXiv con l'identificatore 2605.20268.
Fatti principali
- Chronicle è un trasformatore decoder-only con 324 milioni di parametri.
- È addestrato da zero su linguaggio naturale e serie temporali.
- Entrambe le modalità condividono gli stessi blocchi trasformatore, meccanismo di attenzione e flusso residuo.
- Il pre-addestramento utilizza principalmente batch unimodali.
- La capacità cross-modale emerge dai parametri condivisi.
- Il modello è valutato rispetto a baseline unimodali e multimodali.
- I modelli precedenti adattavano modelli linguistici pre-addestrati a posteriori.
- Il documento è su arXiv: 2605.20268.
Entità
Istituzioni
- arXiv