Il Verified Self-Improvement (VSI) Previene la Deriva del Ragionamento nell'Addestramento dell'IA
Un nuovo articolo su arXiv (2603.21558v2) introduce il Verified Self-Improvement (VSI), un metodo per prevenire l'accumulo di errori di ragionamento durante l'addestramento di auto-miglioramento dei modelli di IA. I ricercatori identificano che il filtraggio standard basato esclusivamente sulla correttezza della risposta finale permette a ipotesi fortunate con ragionamenti errati di contaminare i dati di addestramento, causando un ristagno o un degrado dell'accuratezza in più cicli. Il VSI condiziona la conservazione dei dati all'integrità strutturale a livello di passaggio, ricalcolando i passaggi aritmetici tramite la libreria di algebra computazionale sympy, verificando la coerenza intermedia e imponendo vincoli di dominio. Il framework è stato valutato su GSM8K utilizzando Qwen3-4B-Thinking in cinque cicli di auto-miglioramento, confrontato con quattro baseline: nessuna verifica, verifica del risultato, voto di maggioranza e VSI. L'approccio affronta una modalità di fallimento pervasiva nell'addestramento di auto-miglioramento in cui errori di ragionamento che si accumulano causano un ristagno o un degrado dell'accuratezza. Verificando il processo di ragionamento anziché solo la risposta finale, il VSI mira a sostenere i guadagni di capacità attraverso più cicli di addestramento.
Fatti principali
- Articolo arXiv:2603.21558v2 intitolato 'Reliable Self-Improvement Training by Verifying Reasoning, Not Just Answers'
- L'addestramento standard di auto-miglioramento soffre di errori di ragionamento che si accumulano in più cicli
- Il filtraggio standard conserva le soluzioni basandosi esclusivamente sulla correttezza della risposta finale
- Ipotesi fortunate con ragionamenti errati contaminano i dati di addestramento
- Il VSI condiziona la conservazione dei dati all'integrità strutturale a livello di passaggio
- Il VSI utilizza sympy per ricalcolare i passaggi aritmetici e verificare la coerenza intermedia
- Valutato su GSM8K con Qwen3-4B-Thinking in 5 cicli
- Confrontato con quattro baseline: nessuna verifica, verifica del risultato, voto di maggioranza e VSI
Entità
Istituzioni
- arXiv