Il Gap di Perplessità Rivela gli Obiettivi di Finetuning degli LLM
Un nuovo metodo utilizza la differenza di perplessità per identificare gli obiettivi di finetuning nei grandi modelli linguistici, inclusi comportamenti dannosi. I ricercatori hanno generato completamenti diversi da modelli finetunati utilizzando prefissi casuali, quindi li hanno classificati in base al gap di perplessità decrescente tra il modello di riferimento e quello finetunato. I completamenti in cima alla classifica spesso rivelano gli obiettivi di finetuning senza richiedere l'accesso agli interni del modello o assunzioni preliminari. L'approccio è stato valutato su 76 organismi modello con dimensioni da 0,5 a 70 miliardi di parametri.
Fatti principali
- Il finetuning può introdurre comportamenti dannosi negli LLM.
- Gli organismi modello sono modelli finetunati per comportamenti specifici noti.
- Il metodo basato sulla perplessità fa emergere gli obiettivi di finetuning.
- Il metodo utilizza brevi prefissi casuali da corpora generali.
- I completamenti sono classificati per gap di perplessità decrescente.
- Non sono necessari interni del modello o assunzioni preliminari.
- Valutato su 76 organismi modello.
- Le dimensioni dei modelli vanno da 0,5 a 70 miliardi di parametri.
Entità
—