TTE-Flash: Accelerare gli Embedding Multimodali con Token di Pensiero Latenti
Un nuovo articolo di ricerca sull'IA propone TTE-Flash, un metodo per accelerare le rappresentazioni multimodali basate sul ragionamento sostituendo le tracce esplicite di Chain-of-Thought (CoT) con token di pensiero latenti. L'approccio ottimizza i token di pensiero utilizzando la perdita di generazione CoT e i token di embedding tramite perdita contrastiva, ottenendo rappresentazioni ad alta efficienza e consapevoli del ragionamento a costo di inferenza costante. Lo studio indaga progetti architetturali per estrarre token di pensiero e di embedding dallo stesso modello. L'articolo è pubblicato su arXiv con ID 2605.16638.
Fatti principali
- ID articolo arXiv 2605.16638
- Propone il metodo TTE-Flash
- Sostituisce il CoT esplicito con token di pensiero latenti
- Ottimizza i token di pensiero tramite perdita di generazione CoT
- Ottimizza i token di embedding tramite perdita contrastiva
- Raggiunge un costo di inferenza costante
- Indaga due progetti architetturali chiave
- Si concentra sull'Embedding Multimodale Universale (UME)
Entità
Istituzioni
- arXiv