Predict-then-Diffuse: Lunghezza di Risposta Adattiva per Inferenza con Budget Computazionale nei Modelli Linguistici Diffusivi
Un nuovo framework chiamato Predict-then-Diffuse affronta il limite della lunghezza di risposta fissa nei modelli linguistici di grandi dimensioni basati su diffusione (D-LLM). Questi modelli generano token in parallelo, offrendo vantaggi in termini di throughput rispetto ai modelli autoregressivi, ma richiedono una lunghezza di risposta predeterminata. Ciò comporta spreco computazionale su token di padding se sovradimensionati, o troncamento e ricalcoli costosi se sottodimensionati. Il metodo proposto stima la lunghezza di risposta appropriata per ogni query prima dell'inferenza, consentendo una generazione con budget computazionale. È agnostico rispetto al modello e mira a ottimizzare l'utilizzo della GPU e ridurre i picchi di latenza. L'articolo è disponibile su arXiv con ID 2605.04215.
Fatti principali
- I modelli linguistici basati su diffusione (D-LLM) generano token in parallelo, a differenza dei modelli autoregressivi.
- I D-LLM richiedono una lunghezza di risposta fissa prima della generazione.
- Una lunghezza di risposta sovradimensionata spreca computazione su token di padding.
- Una lunghezza di risposta sottodimensionata causa troncamento e ricalcoli costosi.
- Predict-then-Diffuse stima la lunghezza di risposta per ogni query in input.
- Il framework è agnostico rispetto al modello e consente inferenza con budget computazionale.
- L'articolo è pubblicato su arXiv con ID 2605.04215.
- Il metodo mira a migliorare l'utilizzo della GPU e ridurre i picchi di latenza.
Entità
Istituzioni
- arXiv