Pipeline automatizzata rileva cambiamenti comportamentali inaspettati nei LLM
Un pipeline automatizzato per la valutazione contrastiva è stato creato da ricercatori per valutare come gli interventi influenzano il comportamento dei modelli linguistici di grandi dimensioni. Questa tecnica esamina gli output liberi e multi-token di un modello base, M1, rispetto a quelli di un modello di intervento, M2, in contesti di prompt allineati. Genera ipotesi in linguaggio naturale che sono sia leggibili dall'uomo che statisticamente validate, delineando le differenze tra i modelli, insieme a temi ricorrenti che evidenziano pattern nelle ipotesi validate. Il pipeline è stato testato in un ambiente sintetico introducendo cambiamenti comportamentali noti, che ha identificato accuratamente. Successivamente è stato utilizzato per tre interventi reali: distillazione del ragionamento, editing della conoscenza e unlearning. I risultati hanno rivelato cambiamenti comportamentali sia attesi che inaspettati, differenziando efficacemente tra interventi significativi e minori, senza generare differenze false quando gli effetti erano assenti o disallineati con i prompt. La ricerca è documentata in arXiv:2605.05090v1.
Fatti principali
- Pipeline automatizzato di valutazione contrastiva per audit degli interventi sui LLM
- Confronta il modello base M1 e il modello di intervento M2
- Utilizza generazioni libere e multi-token in contesti di prompt allineati
- Produce ipotesi in linguaggio naturale leggibili dall'uomo e statisticamente validate
- Temi ricorrenti riassumono pattern tra le ipotesi validate
- Valutato in ambiente sintetico con cambiamenti comportamentali noti iniettati
- Applicato a distillazione del ragionamento, editing della conoscenza e unlearning
- Rivela cambiamenti comportamentali intenzionali e inaspettati
- Distingue interventi grandi da quelli sottili
- Non allucina differenze quando gli effetti sono assenti o disallineati
- Dettagliato in arXiv:2605.05090v1
Entità
Istituzioni
- arXiv