Verificatore basato sull'energia potenzia il ragionamento strutturato degli LLM
Una nuova funzione energetica decomposta integra uno scorer di qualità appreso con penalità deterministiche da vincoli analitici per validare gli output strutturati generati da grandi modelli linguistici. Questo scorer di qualità impiega un insieme eterogeneo di adattatori a basso rango applicati a un singolo encoder congelato, utilizzando solo il 3% dei parametri addestrabili. La media dell'insieme classifica i candidati, mentre la deviazione standard valuta l'incertezza epistemica, avviando un ciclo di inferenza a due passaggi che richiede una rigenerazione mirata o l'astensione. In cinque benchmark (GSM8K, MuSR, TravelPlanner, TACO, Knights & Knaves), il verificatore con 149 milioni di parametri, che gestisce un pool di generatori aperti da 7 a 26 miliardi, supera il Qwen-72B a colpo singolo in tutti i benchmark e eguaglia Claude. Lo studio è disponibile su arXiv con ID 2605.18871.
Fatti principali
- Propone una funzione energetica decomposta per verificare output strutturati degli LLM.
- Combina uno scorer di qualità appreso con penalità deterministiche da vincoli analitici.
- Lo scorer di qualità è un insieme eterogeneo di adattatori a basso rango su un singolo encoder congelato.
- Solo il 3% dei parametri è addestrabile.
- La media dell'insieme classifica i candidati; la deviazione standard quantifica l'incertezza epistemica.
- Ciclo di inferenza a due passaggi che attiva rigenerazione mirata o astensione.
- Testato su cinque benchmark: GSM8K, MuSR, TravelPlanner, TACO, Knights & Knaves.
- Verificatore con 149 milioni di parametri orchestra un pool di generatori aperti da 7 a 26 miliardi.
- Supera Qwen-72B a colpo singolo in ogni benchmark.
- Eguaglia le prestazioni di Claude.
- ID articolo: arXiv:2605.18871.
Entità
Istituzioni
- arXiv