Mull-Tokens: Pensiero Latente Modality-Agnostico per il Ragionamento Multimodale

ai-technology · 2026-05-01

Un nuovo approccio di IA chiamato Mull-Tokens introduce token latenti modality-agnostici che consentono ai modelli di ragionare su testo e immagini senza fare affidamento su strumenti specialistici o costosa generazione di immagini. Il metodo pre-allena i token a contenere informazioni intermedie in entrambe le modalità, consentendo un ragionamento libero verso risposte corrette. Ispirato da framework di ragionamento latente, l'addestramento utilizza la supervisione da tracce intervallate di testo e immagini, seguito da un fine-tuning che utilizza solo le risposte finali. L'approccio viene testato su quattro impegnativi benchmark di ragionamento spaziale, dimostrando scalabilità e robustezza rispetto ai modelli multimodali fragili esistenti.

Fatti principali

I Mull-Tokens sono token latenti modality-agnostici pre-addestrati per contenere informazioni intermedie in modalità testo o immagine.
Il metodo evita la dipendenza da strumenti specialistici, costosa generazione di immagini o dati di ragionamento artigianali.
L'addestramento utilizza la supervisione da tracce intervallate di testo e immagini, quindi il fine-tuning senza supervisione utilizzando solo le risposte finali.
Valutato su quattro impegnativi benchmark di ragionamento spaziale.
L'approccio è ispirato da framework di ragionamento latente.
I modelli multimodali esistenti sono descritti come fragili e non scalabili.
Il lavoro è pubblicato su arXiv con ID 2512.10941.
L'articolo esplora le migliori pratiche per l'addestramento dei Mull-Tokens.

Mull-Tokens: Pensiero Latente Modality-Agnostico per il Ragionamento Multimodale

Fatti principali

Entità

Istituzioni

Fonti