Test di verosimiglianza controfattuale misura l'influenza nei canali di ragionamento privati

ai-technology · 2026-05-20

Una tecnica recente descritta in arXiv:2605.19092 impiega test di verosimiglianza controfattuale per valutare l'influenza indiretta tra percorsi di ragionamento privati nei sistemi di IA. Questo metodo sostituisce un blocco privato a monte con un blocco donatore di lunghezza equivalente, mantenendo costanti i token pubblici e il target a valle, e successivamente valuta la variazione della log-verosimiglianza negativa. I test su un modello di ragionamento a canali di ruolo da 7B rivelano che le sonde testuali non sono affidabili: la sovrapposizione grezza di n-grammi esagera le perdite, la sovrapposizione corretta rimane inconsistente e la riproduzione di canary non discrimina efficacemente. La verosimiglianza controfattuale distingue tra condizioni mascherate e non mascherate, con l'abbinamento di lunghezza che affronta un confondente posizionale di RoPE.

Fatti principali

Il metodo utilizza il test di verosimiglianza controfattuale per misurare l'influenza tra canali di ragionamento privati
Sostituisce il blocco privato a monte con un blocco donatore di lunghezza corrispondente
Mantiene fissa la sequenza di token pubblici e il target a valle
Misura la variazione della log-verosimiglianza negativa del target a valle
Validato su un modello di ragionamento a canali di ruolo da 7B
Le sonde testuali sono inaffidabili: la sovrapposizione grezza di n-grammi sopravvaluta le perdite
La sovrapposizione corretta rimane rumorosa
La riproduzione di canary non mostra discriminazione

Test di verosimiglianza controfattuale misura l'influenza nei canali di ragionamento privati

Fatti principali

Entità

Istituzioni

Fonti