ARTFEED — Contemporary Art Intelligence

TIDE: Primo Framework di Distillazione Cross-Architettura per Modelli Linguistici Diffusivi

ai-technology · 2026-04-30

Un team di ricercatori ha presentato TIDE, il primo framework che facilita la distillazione della conoscenza cross-architettura per modelli linguistici diffusivi (dLLM). A differenza delle tecniche precedenti, limitate a trasferimenti all'interno della stessa architettura, TIDE consente variazioni nell'architettura, nel meccanismo di attenzione e nel tokenizer tra il modello insegnante e quello studente. Il framework è composto da tre elementi modulari: TIDAL, che modula l'intensità della distillazione in base all'avanzamento dell'addestramento e al timestep di diffusione per riflettere l'affidabilità dipendente dal rumore dell'insegnante; CompDemo, che migliora il contesto dell'insegnante attraverso una suddivisione complementare delle maschere per previsioni migliori in scenari di mascheramento pesante; e Reverse CALM, un obiettivo cross-tokenizer che inverte il matching di verosimiglianza a livello di chunk per gradienti vincolati. Questa ricerca colma una lacuna significativa nella distillazione dei dLLM, poiché i migliori dLLM richiedono miliardi di parametri per prestazioni ottimali. Il paper è accessibile su arXiv con ID 2604.26951.

Fatti principali

  • TIDE è il primo framework di distillazione cross-architettura per modelli linguistici diffusivi.
  • Consente a insegnante e studente di differire in architettura, meccanismo di attenzione e tokenizer.
  • TIDAL modula l'intensità della distillazione in base al progresso dell'addestramento e al timestep di diffusione.
  • CompDemo utilizza la suddivisione complementare delle maschere per migliorare le previsioni sotto mascheramento pesante.
  • Reverse CALM è un obiettivo cross-tokenizer per il matching di gradienti vincolati.
  • I metodi precedenti di distillazione per dLLM funzionano solo all'interno di una singola architettura.
  • I dLLM allo stato dell'arte necessitano di miliardi di parametri per prestazioni competitive.
  • Il paper è pubblicato su arXiv con ID 2604.26951.

Entità

Istituzioni

  • arXiv

Fonti