ARTFEED — Contemporary Art Intelligence

HDMI: Sondaggio Causale Senza Sonde per LLM

ai-technology · 2026-05-11

Un nuovo metodo chiamato Hidden-state Driven Margin Intervention (HDMI) consente il sondaggio causale di grandi modelli linguistici senza addestrare classificatori ausiliari. HDMI utilizza un intervento basato sul gradiente per modificare direttamente gli stati nascosti tramite l'output nativo del modello, applicando un obiettivo di margine per aumentare la probabilità di continuazione target e diminuire quella della fonte. Una variante lookahead (LA-HDMI) consente la modifica del testo retropropagando attraverso gli embedding softmax. L'approccio evita problemi di disallineamento comuni nei metodi basati su sonde. L'articolo è disponibile su arXiv con ID 2605.07631.

Fatti principali

  • HDMI è una tecnica di sondaggio causale senza sonda basata sul gradiente.
  • Utilizza un obiettivo di margine per orientare gli stati nascosti.
  • La variante LA-HDMI consente la modifica del testo tramite retropropagazione softmax.
  • Il metodo evita classificatori ausiliari di sonda.
  • Articolo disponibile su arXiv:2605.07631.
  • Il sondaggio causale verifica come le rappresentazioni interne influenzano il comportamento del modello.
  • I metodi esistenti si basano su classificatori di sonda addestrati.
  • HDMI utilizza direttamente l'output nativo del modello.

Entità

Istituzioni

  • arXiv

Fonti