Mull-Tokens: Pensiero Latente Modality-Agnostico per il Ragionamento Multimodale
Un nuovo approccio di IA chiamato Mull-Tokens introduce token latenti modality-agnostici che consentono ai modelli di ragionare su testo e immagini senza fare affidamento su strumenti specialistici o costosa generazione di immagini. Il metodo pre-allena i token a contenere informazioni intermedie in entrambe le modalità, consentendo un ragionamento libero verso risposte corrette. Ispirato da framework di ragionamento latente, l'addestramento utilizza la supervisione da tracce intervallate di testo e immagini, seguito da un fine-tuning che utilizza solo le risposte finali. L'approccio viene testato su quattro impegnativi benchmark di ragionamento spaziale, dimostrando scalabilità e robustezza rispetto ai modelli multimodali fragili esistenti.
Fatti principali
- I Mull-Tokens sono token latenti modality-agnostici pre-addestrati per contenere informazioni intermedie in modalità testo o immagine.
- Il metodo evita la dipendenza da strumenti specialistici, costosa generazione di immagini o dati di ragionamento artigianali.
- L'addestramento utilizza la supervisione da tracce intervallate di testo e immagini, quindi il fine-tuning senza supervisione utilizzando solo le risposte finali.
- Valutato su quattro impegnativi benchmark di ragionamento spaziale.
- L'approccio è ispirato da framework di ragionamento latente.
- I modelli multimodali esistenti sono descritti come fragili e non scalabili.
- Il lavoro è pubblicato su arXiv con ID 2512.10941.
- L'articolo esplora le migliori pratiche per l'addestramento dei Mull-Tokens.
Entità
Istituzioni
- arXiv