Il framework DDC bilancia budget e qualità nel ridimensionamento dell'inferenza LLM
Un nuovo articolo di ricerca introduce la Coerenza Duale Dimensionale (DDC), un framework unificato per il ridimensionamento adattivo dell'inferenza nei modelli linguistici di grandi dimensioni (LLM). I metodi attuali trattano l'ampiezza e la profondità del campionamento come obiettivi separati, portando a inefficienze: il consenso sull'ampiezza può rafforzare le allucinazioni, mentre la potatura della profondità può interrompere catene di ragionamento valide. DDC combina un protocollo bayesiano pesato per la confidenza con una potatura stratificata sensibile alle tendenze per concentrare le risorse computazionali su percorsi di alta qualità, filtrando le allucinazioni e accelerando il consenso. Le valutazioni su cinque benchmark mostrano un consumo ridotto di token mantenendo la qualità del ragionamento. L'articolo è disponibile su arXiv con ID 2605.15100.
Fatti principali
- DDC è un framework unificato per il ridimensionamento adattivo dell'inferenza.
- I metodi attuali trattano l'ampiezza e la profondità del campionamento come obiettivi ortogonali.
- Il consenso sull'ampiezza rischia di rafforzare le allucinazioni.
- La potatura della profondità tronca prematuramente catene di ragionamento complesse e valide.
- DDC utilizza un protocollo bayesiano pesato per la confidenza e una potatura stratificata sensibile alle tendenze.
- Valutato su cinque benchmark.
- L'approccio riduce il consumo di token.
- Articolo disponibile su arXiv: 2605.15100.
Entità
Istituzioni
- arXiv