ARTFEED — Contemporary Art Intelligence

Chronicle: Un Modello Fondazionale Multimodale per la Comprensione Congiunta di Linguaggio e Serie Temporali

other · 2026-05-22

Chronicle è un trasformatore decoder-only con 324 milioni di parametri, sviluppato da zero per gestire sia dati di linguaggio naturale che serie temporali all'interno di un quadro coeso. A differenza dei precedenti modelli multimodali che modificano modelli linguistici pre-addestrati dopo l'addestramento iniziale, Chronicle utilizza blocchi trasformatore, meccanismi di attenzione e flussi residui identici per entrambi i tipi di dati. La maggior parte del pre-addestramento coinvolge batch unimodali, facilitando l'emergere di capacità cross-modali attraverso parametri condivisi. Le prestazioni del modello sono valutate rispetto a benchmark sia unimodali che multimodali, colmando una lacuna nella ricerca precedente che confrontava solo modelli multimodali. Il documento è disponibile su arXiv con l'identificatore 2605.20268.

Fatti principali

  • Chronicle è un trasformatore decoder-only con 324 milioni di parametri.
  • È addestrato da zero su linguaggio naturale e serie temporali.
  • Entrambe le modalità condividono gli stessi blocchi trasformatore, meccanismo di attenzione e flusso residuo.
  • Il pre-addestramento utilizza principalmente batch unimodali.
  • La capacità cross-modale emerge dai parametri condivisi.
  • Il modello è valutato rispetto a baseline unimodali e multimodali.
  • I modelli precedenti adattavano modelli linguistici pre-addestrati a posteriori.
  • Il documento è su arXiv: 2605.20268.

Entità

Istituzioni

  • arXiv

Fonti