Test di verosimiglianza controfattuale misura l'influenza nei canali di ragionamento privati
Una tecnica recente descritta in arXiv:2605.19092 impiega test di verosimiglianza controfattuale per valutare l'influenza indiretta tra percorsi di ragionamento privati nei sistemi di IA. Questo metodo sostituisce un blocco privato a monte con un blocco donatore di lunghezza equivalente, mantenendo costanti i token pubblici e il target a valle, e successivamente valuta la variazione della log-verosimiglianza negativa. I test su un modello di ragionamento a canali di ruolo da 7B rivelano che le sonde testuali non sono affidabili: la sovrapposizione grezza di n-grammi esagera le perdite, la sovrapposizione corretta rimane inconsistente e la riproduzione di canary non discrimina efficacemente. La verosimiglianza controfattuale distingue tra condizioni mascherate e non mascherate, con l'abbinamento di lunghezza che affronta un confondente posizionale di RoPE.
Fatti principali
- Il metodo utilizza il test di verosimiglianza controfattuale per misurare l'influenza tra canali di ragionamento privati
- Sostituisce il blocco privato a monte con un blocco donatore di lunghezza corrispondente
- Mantiene fissa la sequenza di token pubblici e il target a valle
- Misura la variazione della log-verosimiglianza negativa del target a valle
- Validato su un modello di ragionamento a canali di ruolo da 7B
- Le sonde testuali sono inaffidabili: la sovrapposizione grezza di n-grammi sopravvaluta le perdite
- La sovrapposizione corretta rimane rumorosa
- La riproduzione di canary non mostra discriminazione
Entità
Istituzioni
- arXiv