ARTFEED — Contemporary Art Intelligence

Test di verosimiglianza controfattuale misura l'influenza nei canali di ragionamento privati

ai-technology · 2026-05-20

Una tecnica recente descritta in arXiv:2605.19092 impiega test di verosimiglianza controfattuale per valutare l'influenza indiretta tra percorsi di ragionamento privati nei sistemi di IA. Questo metodo sostituisce un blocco privato a monte con un blocco donatore di lunghezza equivalente, mantenendo costanti i token pubblici e il target a valle, e successivamente valuta la variazione della log-verosimiglianza negativa. I test su un modello di ragionamento a canali di ruolo da 7B rivelano che le sonde testuali non sono affidabili: la sovrapposizione grezza di n-grammi esagera le perdite, la sovrapposizione corretta rimane inconsistente e la riproduzione di canary non discrimina efficacemente. La verosimiglianza controfattuale distingue tra condizioni mascherate e non mascherate, con l'abbinamento di lunghezza che affronta un confondente posizionale di RoPE.

Fatti principali

  • Il metodo utilizza il test di verosimiglianza controfattuale per misurare l'influenza tra canali di ragionamento privati
  • Sostituisce il blocco privato a monte con un blocco donatore di lunghezza corrispondente
  • Mantiene fissa la sequenza di token pubblici e il target a valle
  • Misura la variazione della log-verosimiglianza negativa del target a valle
  • Validato su un modello di ragionamento a canali di ruolo da 7B
  • Le sonde testuali sono inaffidabili: la sovrapposizione grezza di n-grammi sopravvaluta le perdite
  • La sovrapposizione corretta rimane rumorosa
  • La riproduzione di canary non mostra discriminazione

Entità

Istituzioni

  • arXiv

Fonti