L'addestramento in tempo di test crea nuove vulnerabilità di jailbreak per l'IA

ai-technology · 2026-05-25

I ricercatori hanno identificato che l'addestramento in tempo di test (TTT), una tecnica che consente ai modelli di IA di adattarsi durante l'inferenza, introduce falle di sicurezza sfruttabili. In uno studio su arXiv, delineano tre modelli di minaccia in cui gli aggressori possono bypassare i filtri di sicurezza. Con LoRA, i modelli few-shot e di fase di generazione hanno raggiunto un tasso medio di successo dell'attacco (ASR@10) del 95% e del 93% in varie famiglie e scale di modelli. Queste vulnerabilità si trasferiscono anche alle API di fine-tuning in produzione. L'articolo avverte che l'overfitting indotto da TTT può produrre output degenerati che gonfiano l'ASR sotto giudici standard.

Fatti principali

L'addestramento in tempo di test (TTT) consente ai modelli di adattare i parametri durante l'inferenza.
Sono identificati tre modelli di minaccia per TTT.
Gli aggressori possono sfruttare TTT per bypassare i filtri di sicurezza.
Con LoRA, il modello di minaccia few-shot raggiunge un ASR@10 medio del 95%.
Con LoRA, il modello di minaccia di fase di generazione raggiunge un ASR@10 medio del 93%.
Le vulnerabilità si trasferiscono alle API di fine-tuning in produzione.
L'overfitting indotto da TTT può produrre output degenerati che gonfiano l'ASR.
Studio pubblicato su arXiv con ID 2605.22984.

L'addestramento in tempo di test crea nuove vulnerabilità di jailbreak per l'IA

Fatti principali

Entità

Istituzioni

Fonti