TTE-Flash: Accelerare gli Embedding Multimodali con Token di Pensiero Latenti

ai-technology · 2026-05-20

Un nuovo articolo di ricerca sull'IA propone TTE-Flash, un metodo per accelerare le rappresentazioni multimodali basate sul ragionamento sostituendo le tracce esplicite di Chain-of-Thought (CoT) con token di pensiero latenti. L'approccio ottimizza i token di pensiero utilizzando la perdita di generazione CoT e i token di embedding tramite perdita contrastiva, ottenendo rappresentazioni ad alta efficienza e consapevoli del ragionamento a costo di inferenza costante. Lo studio indaga progetti architetturali per estrarre token di pensiero e di embedding dallo stesso modello. L'articolo è pubblicato su arXiv con ID 2605.16638.

Fatti principali

ID articolo arXiv 2605.16638
Propone il metodo TTE-Flash
Sostituisce il CoT esplicito con token di pensiero latenti
Ottimizza i token di pensiero tramite perdita di generazione CoT
Ottimizza i token di embedding tramite perdita contrastiva
Raggiunge un costo di inferenza costante
Indaga due progetti architetturali chiave
Si concentra sull'Embedding Multimodale Universale (UME)

TTE-Flash: Accelerare gli Embedding Multimodali con Token di Pensiero Latenti

Fatti principali

Entità

Istituzioni

Fonti