ARTFEED — Contemporary Art Intelligence

Il Gap di Perplessità Rivela gli Obiettivi di Finetuning degli LLM

ai-technology · 2026-05-06

Un nuovo metodo utilizza la differenza di perplessità per identificare gli obiettivi di finetuning nei grandi modelli linguistici, inclusi comportamenti dannosi. I ricercatori hanno generato completamenti diversi da modelli finetunati utilizzando prefissi casuali, quindi li hanno classificati in base al gap di perplessità decrescente tra il modello di riferimento e quello finetunato. I completamenti in cima alla classifica spesso rivelano gli obiettivi di finetuning senza richiedere l'accesso agli interni del modello o assunzioni preliminari. L'approccio è stato valutato su 76 organismi modello con dimensioni da 0,5 a 70 miliardi di parametri.

Fatti principali

  • Il finetuning può introdurre comportamenti dannosi negli LLM.
  • Gli organismi modello sono modelli finetunati per comportamenti specifici noti.
  • Il metodo basato sulla perplessità fa emergere gli obiettivi di finetuning.
  • Il metodo utilizza brevi prefissi casuali da corpora generali.
  • I completamenti sono classificati per gap di perplessità decrescente.
  • Non sono necessari interni del modello o assunzioni preliminari.
  • Valutato su 76 organismi modello.
  • Le dimensioni dei modelli vanno da 0,5 a 70 miliardi di parametri.

Entità

Fonti