ARTFEED — Contemporary Art Intelligence

TTE-Flash: Accelerare gli Embedding Multimodali con Token di Pensiero Latenti

ai-technology · 2026-05-20

Un nuovo articolo di ricerca sull'IA propone TTE-Flash, un metodo per accelerare le rappresentazioni multimodali basate sul ragionamento sostituendo le tracce esplicite di Chain-of-Thought (CoT) con token di pensiero latenti. L'approccio ottimizza i token di pensiero utilizzando la perdita di generazione CoT e i token di embedding tramite perdita contrastiva, ottenendo rappresentazioni ad alta efficienza e consapevoli del ragionamento a costo di inferenza costante. Lo studio indaga progetti architetturali per estrarre token di pensiero e di embedding dallo stesso modello. L'articolo è pubblicato su arXiv con ID 2605.16638.

Fatti principali

  • ID articolo arXiv 2605.16638
  • Propone il metodo TTE-Flash
  • Sostituisce il CoT esplicito con token di pensiero latenti
  • Ottimizza i token di pensiero tramite perdita di generazione CoT
  • Ottimizza i token di embedding tramite perdita contrastiva
  • Raggiunge un costo di inferenza costante
  • Indaga due progetti architetturali chiave
  • Si concentra sull'Embedding Multimodale Universale (UME)

Entità

Istituzioni

  • arXiv

Fonti