PAD-Rec: Accelerare la Raccomandazione Generativa Basata su LLM

other · 2026-05-01

Un nuovo metodo chiamato PAD-Rec (Position-Aware Drafting per la Raccomandazione Generativa) migliora la velocità di inferenza nei modelli linguistici di grandi dimensioni (LLM) per la raccomandazione generativa di tipo list-wise. La tecnica affronta i limiti del decoding speculativo standard (SD), che utilizza un piccolo modello di bozza per proporre più token e un LLM target per verificarli. Nelle attività di raccomandazione, gli elementi sono rappresentati da token di ID semantici con separatori, e la semantica dei token dipende dalla loro posizione all'interno di uno slot di elemento. L'incertezza aumenta anche con la profondità della speculazione. PAD-Rec potenzia il modello di bozza con segnali sensibili alla posizione per tenere conto di questi fattori, ottenendo maggiori accelerazioni senza alterare la distribuzione target. Il lavoro è pubblicato su arXiv con ID 2604.27747.

Fatti principali

1. PAD-Rec è un modulo di bozza sensibile alla posizione per la raccomandazione generativa.
2. Accelera l'inferenza nella raccomandazione generativa di tipo list-wise basata su LLM.
3. Il decoding speculativo standard tratta i token in modo uniforme, ignorando la semantica dipendente dalla posizione.
4. PAD-Rec modella la posizione dello slot del token e la crescita dell'incertezza con la profondità.
5. Il metodo non modifica la distribuzione target.
6. È progettato per la raccomandazione generativa utilizzando token di ID semantici.
7. L'articolo è disponibile su arXiv con ID 2604.27747.
8. L'approccio mira a ridurre la latenza nel decoding sequenziale.

PAD-Rec: Accelerare la Raccomandazione Generativa Basata su LLM

Fatti principali

Entità

Istituzioni

Fonti