PreFT: Il finetuning solo prefill aumenta il throughput di LLM multi-adattatore

ai-technology · 2026-05-16

Un nuovo metodo chiamato PreFT (Prefill-only Finetuning) migliora il throughput di inferenza per servire più modelli linguistici di grandi dimensioni con finetuning efficiente in parametri (PEFT) specifici per utente. I ricercatori hanno identificato un disallineamento di throughput tra le fasi di prefill e decode quando si gestiscono più adattatori. PreFT applica l'adattatore solo durante il prefill e lo scarta per il decode, aumentando significativamente il throughput con una perdita di prestazioni minima. Il team ha rilasciato un'implementazione efficiente di due PEFT solo prefill. Il lavoro è descritto in arXiv:2605.14217.

Fatti principali

PreFT sta per Prefill-only Finetuning.
Affronta i problemi di throughput nel servire più adattatori PEFT specifici per utente.
Il disallineamento tra le fasi di prefill e decode danneggia il throughput.
PreFT applica l'adattatore solo ai token di prefill e lo scarta successivamente.
Aumenta significativamente il throughput con un effetto minimo sulle prestazioni.
È stata rilasciata un'implementazione efficiente di due PEFT solo prefill.
La ricerca è pubblicata su arXiv con ID 2605.14217.
Il metodo ottimizza per il throughput di servizio piuttosto che per il numero di parametri.

PreFT: Il finetuning solo prefill aumenta il throughput di LLM multi-adattatore

Fatti principali

Entità

Istituzioni

Fonti