DynamicPO previene il collasso dell'ottimizzazione delle preferenze nei sistemi di raccomandazione basati su LLM

ai-technology · 2026-05-04

Un nuovo studio da arXiv (2605.00327) identifica un fenomeno chiamato collasso dell'ottimizzazione delle preferenze nei sistemi di raccomandazione basati su grandi modelli linguistici (LLM) che utilizzano l'ottimizzazione diretta delle preferenze (DPO). I ricercatori hanno scoperto che l'aumento dei campioni negativi può degradare le prestazioni nonostante la diminuzione della perdita di addestramento, a causa della soppressione del gradiente da parte di negativi facilmente discriminabili che sopraffanno quelli critici per il confine. Per affrontare questo problema, propongono Dynamic Preference Optimization (DynamicPO), un metodo leggero che pesa dinamicamente i negativi per preservare i confini decisionali. Il lavoro fornisce un'analisi sia empirica che teorica del meccanismo di collasso.

Fatti principali

Il collasso dell'ottimizzazione delle preferenze si verifica quando l'aumento dei campioni negativi degrada le prestazioni di raccomandazione.
La perdita di addestramento diminuisce continuamente anche quando le prestazioni calano.
La soppressione del gradiente da parte di negativi facilmente discriminabili causa il collasso.
I negativi critici per il confine sono sotto-ottimizzati, indebolendo il confine decisionale.
DynamicPO è proposto come soluzione leggera per pesare dinamicamente i negativi.
Lo studio include analisi empiriche e dimostrazioni teoriche.
L'articolo è pubblicato su arXiv con identificatore 2605.00327.
Il lavoro si concentra sui sistemi di raccomandazione basati su LLM che utilizzano DPO.

DynamicPO previene il collasso dell'ottimizzazione delle preferenze nei sistemi di raccomandazione basati su LLM

Fatti principali

Entità

Istituzioni

Fonti