Pelican-Unified 1.0: Modello di IA Incorporata Unifica Comprensione, Ragionamento, Immaginazione e Azione

ai-technology · 2026-05-16

I ricercatori hanno appena presentato Pelican-Unified 1.0, il primo modello fondamentale incorporato basato su idee di unificazione. Utilizza un unico Modello Visione-Linguaggio (VLM) che combina vari elementi come scene, istruzioni e contesti visivi in un modulo di comprensione coeso. Inoltre, dispone di un modulo di ragionamento che fornisce sequenze di pensiero orientate al compito in un'unica soluzione. L'output finale viene trasformato in una variabile latente densa, che il Generatore Futuro Unificato (UFG) utilizza per produrre simultaneamente video e azioni future attraverso output specializzati in un processo unificato. Ottimizzando le perdite relative al linguaggio, al video e all'azione, questo modello rappresenta un passo avanti significativo verso il raggiungimento di un'intelligenza incorporata unificata.

Fatti principali

Pelican-Unified 1.0 è il primo modello fondamentale incorporato addestrato sul principio di unificazione.
Utilizza un unico VLM come modulo di comprensione e ragionamento.
Mappa scene, istruzioni, contesti visivi e storie di azioni in uno spazio semantico condiviso.
Produce in modo autoregressivo catene di pensiero orientate al compito, all'azione e al futuro in un unico passaggio in avanti.
Lo stato nascosto finale si proietta in una variabile latente densa.
Il Generatore Futuro Unificato (UFG) genera congiuntamente video e azioni future.
Le perdite di linguaggio, video e azione vengono retropropagate nella rappresentazione condivisa.
Ottimizza congiuntamente comprensione, ragionamento, immaginazione e azione durante l'addestramento.

Entità

—

Fonti

arXiv cs.AI — 2026-05-16