ARTFEED — Contemporary Art Intelligence

Nautile-370M: Modello di Ragionamento Ibrido con Memoria Spettrale

ai-technology · 2026-04-30

È stato presentato un nuovo modello linguistico di piccole dimensioni chiamato Nautile-370M, con 371 milioni di parametri, progettato per un ragionamento efficace entro limiti di parametri e inferenza ridotti. Questo modello utilizza un'architettura ibrida che alterna due strati SeqCond Attention (SCA) — basati sull'operatore di sequenza spettrale a tempo lineare SeqCondenser — e uno strato transformer. L'obiettivo è unire i vantaggi dei modelli sequenziali strutturati, come l'efficienza su contesti lunghi e il tracciamento degli stati, con il routing flessibile token-to-token fornito dai meccanismi di attenzione. L'addestramento è avvenuto su una singola slice di pod Cloud TPU v4-64 tramite il programma Google TPU Research Cloud (TRC), seguito da apprendimento per rinforzo su un singolo NVIDIA DGX Spark. Gli autori dimostrano che la lettura SCA può estrarre con precisione qualsiasi token dal riepilogo del prefisso e riprodurre gli output dell'attenzione softmax, confermando l'espressività di SCA rispetto all'attenzione standard.

Fatti principali

  • Nautile-370M è un modello linguistico piccolo con 371 milioni di parametri.
  • Utilizza un'architettura ibrida con due strati SeqCond Attention e uno strato transformer.
  • SeqCond Attention è un operatore di sequenza spettrale a tempo lineare ispirato a SeqCondenser.
  • Il modello è stato addestrato su una singola slice di pod Cloud TPU v4-64 tramite Google TPU Research Cloud.
  • L'apprendimento per rinforzo è stato eseguito su un singolo NVIDIA DGX Spark.
  • La lettura SCA può recuperare esattamente qualsiasi singolo token dal riepilogo del prefisso.
  • SCA può riprodurre qualsiasi output dell'attenzione softmax come caso speciale.
  • L'articolo è disponibile su arXiv con ID 2604.24809.

Entità

Istituzioni

  • Google TPU Research Cloud (TRC)
  • NVIDIA

Fonti