Il Post-Training con A* Potenzia l'Efficienza del Ragionamento degli LLM

ai-technology · 2026-05-26

Uno studio recente pubblicato su arXiv (2605.24597) suggerisce di migliorare il ragionamento deduttivo nei grandi modelli linguistici (LLM) attraverso la ricerca A*. I ricercatori concettualizzano l'inferenza in linguaggio naturale come una sfida di ricerca, dove una prova valida funge da risposta finale, richiedendo passaggi intermedi accurati. Investigano il fine-tuning supervisionato basato su tracce di esecuzione A* insieme all'apprendimento per rinforzo che utilizza modelli di ricompensa informati da A*. I test condotti sui modelli Llama-3.2 (da 1 a 3 miliardi di parametri) mostrano miglioramenti significativi, passando da un'accuratezza quasi nulla al superamento di DeepSeek-V3.2, un modello considerevolmente più grande. I loro risultati indicano un equilibrio tra ricompense di correttezza dirette ed efficienza operativa.

Fatti principali

Il paper arXiv:2605.24597 propone il post-training con A* per il ragionamento degli LLM.
Inquadra l'inferenza in linguaggio naturale come un problema di ricerca di prove valide.
Utilizza il fine-tuning supervisionato su tracce di esecuzione A*.
Utilizza anche l'apprendimento per rinforzo con modelli di ricompensa di processo informati da A*.
I modelli Llama-3.2 (1B–3B) sono migliorati da un'accuratezza quasi nulla.
Hanno superato DeepSeek-V3.2, un modello molto più grande.
È stato identificato un compromesso tra ricompense di correttezza ed efficienza.
La ricerca A* garantisce il percorso ottimale verso l'obiettivo.

Il Post-Training con A* Potenzia l'Efficienza del Ragionamento degli LLM

Fatti principali

Entità

Istituzioni

Fonti