Framework Buffer-and-Reinforce difende i LLM dal fine-tuning dannoso

ai-technology · 2026-05-26

Un nuovo articolo su arXiv (2605.24550) propone un framework di fine-tuning Buffer-and-Reinforce per proteggere i modelli linguistici di grandi dimensioni dal degrado della sicurezza durante il Fine-tuning-as-a-Service (FaaS). Gli autori rivalutano il jailbreaking temporaneo come difesa, fornendo un'analisi a livello di gradiente che mostra come saturi i gradienti che degradano la sicurezza preservando quelli benigni rilevanti per il compito. Il framework consiste in BufferLoRA, un adattatore rimovibile che induce un jailbreaking temporaneo per ridurre gli aggiornamenti dannosi durante il fine-tuning dell'utente, e ReinforceLoRA, addestrato per recuperare il comportamento di rifiuto dopo l'adattamento. Questo meccanismo impedisce ai modelli di apprendere comportamenti indesiderati sotto attacchi di fine-tuning dannosi, affrontando una vulnerabilità chiave nella personalizzazione dei LLM.

Fatti principali

Articolo pubblicato su arXiv con ID 2605.24550
Propone il framework di fine-tuning Buffer-and-Reinforce
Utilizza il jailbreaking temporaneo come difesa
L'analisi a livello di gradiente mostra la saturazione dei gradienti che degradano la sicurezza
BufferLoRA agisce come adattatore rimovibile per il jailbreaking temporaneo
ReinforceLoRA recupera il comportamento di rifiuto dopo l'adattamento
Affronta gli attacchi di fine-tuning dannosi nel Fine-tuning-as-a-Service (FaaS)
Preserva i gradienti benigni rilevanti per il compito

Framework Buffer-and-Reinforce difende i LLM dal fine-tuning dannoso

Fatti principali

Entità

Istituzioni

Fonti