Il ragionamento multi-agente migliora l'efficienza degli LLM sulla frontiera di Pareto
Un nuovo preprint arXiv (2605.01566) analizza sistematicamente le strategie di scaling dell'inferenza per i modelli linguistici di grandi dimensioni, concentrandosi sull'efficienza computazionale piuttosto che sulle prestazioni grezze. Lo studio confronta self-consistency, self-refinement, multi-agent debate e mixture-of-agents su 34 configurazioni e oltre 100 valutazioni sui benchmark MMLU-Pro e BBH. Calcolando la frontiera Pareto-ottimale, i ricercatori identificano metodi che raggiungono la migliore accuratezza con il minor budget computazionale. Il ragionamento multi-agente e mixture-of-agents emergono come approcci efficienti, migliorando l'accuratezza fino a +7,1 punti percentuali senza addestramento aggiuntivo. Il lavoro sottolinea l'importanza di un uso economicamente vantaggioso del calcolo per applicazioni reali con vincoli di risorse.
Fatti principali
- Il preprint arXiv 2605.01566 analizza le strategie di scaling dell'inferenza per gli LLM
- Metodi studiati: self-consistency, self-refinement, multi-agent debate, mixture-of-agents
- Valutati sui benchmark di ragionamento MMLU-Pro e BBH
- Eseguite 34 configurazioni e oltre 100 valutazioni
- Calcolata la frontiera Pareto-ottimale per bilanciare accuratezza e budget computazionale
- Il ragionamento multi-agente e mixture-of-agents raggiungono un'elevata efficienza
- Accuratezza migliorata fino a +7,1 punti percentuali senza addestramento aggiuntivo
- Focus sull'uso economicamente vantaggioso del calcolo per vincoli reali
Entità
Istituzioni
- arXiv