Il Post-Training con A* Potenzia l'Efficienza del Ragionamento degli LLM
Uno studio recente pubblicato su arXiv (2605.24597) suggerisce di migliorare il ragionamento deduttivo nei grandi modelli linguistici (LLM) attraverso la ricerca A*. I ricercatori concettualizzano l'inferenza in linguaggio naturale come una sfida di ricerca, dove una prova valida funge da risposta finale, richiedendo passaggi intermedi accurati. Investigano il fine-tuning supervisionato basato su tracce di esecuzione A* insieme all'apprendimento per rinforzo che utilizza modelli di ricompensa informati da A*. I test condotti sui modelli Llama-3.2 (da 1 a 3 miliardi di parametri) mostrano miglioramenti significativi, passando da un'accuratezza quasi nulla al superamento di DeepSeek-V3.2, un modello considerevolmente più grande. I loro risultati indicano un equilibrio tra ricompense di correttezza dirette ed efficienza operativa.
Fatti principali
- Il paper arXiv:2605.24597 propone il post-training con A* per il ragionamento degli LLM.
- Inquadra l'inferenza in linguaggio naturale come un problema di ricerca di prove valide.
- Utilizza il fine-tuning supervisionato su tracce di esecuzione A*.
- Utilizza anche l'apprendimento per rinforzo con modelli di ricompensa di processo informati da A*.
- I modelli Llama-3.2 (1B–3B) sono migliorati da un'accuratezza quasi nulla.
- Hanno superato DeepSeek-V3.2, un modello molto più grande.
- È stato identificato un compromesso tra ricompense di correttezza ed efficienza.
- La ricerca A* garantisce il percorso ottimale verso l'obiettivo.
Entità
Istituzioni
- arXiv
- DeepSeek