DPPrefSyn: Dati Sintetici con Privacy Differenziale per l'Allineamento degli LLM

ai-technology · 2026-06-01

Un nuovo algoritmo chiamato DPPrefSyn è stato introdotto dai ricercatori per creare dati di preferenza sintetici con privacy differenziale, facilitando l'allineamento privacy-consapevole dei grandi modelli linguistici (LLM). Questo approccio innovativo si basa sul modello di preferenza Bradley-Terry e sulle caratteristiche geometriche delle preferenze umane a coppie. Inizialmente, stabilisce un modello di preferenza fondamentale dai dati privati, garantendo una privacy differenziale formale. Successivamente, utilizza questo modello insieme a prompt pubblici per generare dati di preferenza di alta qualità. DPPrefSyn sfrutta la struttura lineare presente nei modelli di ricompensa per cluster per rappresentare efficacemente le diverse preferenze umane, salvaguardando al contempo input e valutazioni sensibili degli utenti. Questa ricerca affronta i problemi di privacy nel post-training con dati reali di preferenze umane, che possono contenere dettagli riservati. I risultati sono disponibili su arXiv con l'identificatore 2605.30808.

Fatti principali

DPPrefSyn è un nuovo algoritmo per la generazione di dati di preferenza sintetici con privacy differenziale.
Si basa sul modello di preferenza Bradley-Terry e sulla struttura geometrica dei dati a coppie.
L'algoritmo apprende un modello di preferenza dai dati privati con garanzie di privacy differenziale.
Utilizza prompt pubblici per sintetizzare dati di preferenza di alta qualità.
Sfrutta la struttura lineare condivisa dei modelli di ricompensa per cluster.
Il lavoro affronta le preoccupazioni sulla privacy nel post-training degli LLM su dati di preferenze umane.
L'articolo è disponibile su arXiv con ID 2605.30808.
L'approccio mira a proteggere i prompt sensibili degli utenti e i giudizi umani.

DPPrefSyn: Dati Sintetici con Privacy Differenziale per l'Allineamento degli LLM

Fatti principali

Entità

Istituzioni

Fonti