ARTFEED — Contemporary Art Intelligence

Nuova architettura AI MM-Mem utilizza un collo di bottiglia semantico per la comprensione video a lungo orizzonte

ai-technology · 2026-04-22

Una nuova architettura di memoria multimodale piramidale, denominata MM-Mem, è stata sviluppata da ricercatori per superare le sfide nella comprensione video a lungo orizzonte utilizzando modelli linguistici multimodali di grandi dimensioni. Questo sistema innovativo organizza la memoria in tre componenti gerarchiche: Buffer Sensoriale, Flusso Episodico e Schema Simbolico. Questa struttura facilita la trasformazione di informazioni percettive dettagliate in schemi semantici generali, progredendo da dettagli precisi a una comprensione generale. Basata sulla Teoria della Traccia Sfocata, l'architettura incorpora un Collo di Bottiglia Semantico che modella dinamicamente la memoria. Mentre gli attuali modelli multimodali eccellono nel ragionamento a breve termine, vacillano nell'analisi video a lungo termine a causa di finestre di contesto limitate e sistemi di memoria inflessibili. Le strategie esistenti si affidano eccessivamente ai dati visivi, causando latenza e ridondanza, o si concentrano sul testo, portando a perdita di dettagli e allucinazioni. MM-Mem cerca di riconciliare questi problemi. Questa ricerca è stata pubblicata su arXiv con l'identificatore arXiv:2603.01455v3, classificata come replace-cross.

Fatti principali

  • MM-Mem è un'architettura di memoria multimodale piramidale per la comprensione video a lungo orizzonte
  • L'architettura struttura la memoria gerarchicamente in Buffer Sensoriale, Flusso Episodico e Schema Simbolico
  • Consente una distillazione progressiva da tracce percettive granulari a schemi semantici di alto livello
  • Il sistema è basato sulla Teoria della Traccia Sfocata
  • Un Collo di Bottiglia Semantico governa la costruzione dinamica della memoria
  • I modelli linguistici multimodali di grandi dimensioni hanno difficoltà con la comprensione video a lungo orizzonte a causa di finestre di contesto limitate
  • I metodi esistenti ricadono in estremi vision-centrici (alta latenza) o text-centrici (perdita di dettagli)
  • La ricerca è stata pubblicata su arXiv con l'identificatore arXiv:2603.01455v3

Entità

Istituzioni

  • arXiv

Fonti