Il Verified Self-Improvement (VSI) Previene la Deriva del Ragionamento nell'Addestramento dell'IA

ai-technology · 2026-06-01

Un nuovo articolo su arXiv (2603.21558v2) introduce il Verified Self-Improvement (VSI), un metodo per prevenire l'accumulo di errori di ragionamento durante l'addestramento di auto-miglioramento dei modelli di IA. I ricercatori identificano che il filtraggio standard basato esclusivamente sulla correttezza della risposta finale permette a ipotesi fortunate con ragionamenti errati di contaminare i dati di addestramento, causando un ristagno o un degrado dell'accuratezza in più cicli. Il VSI condiziona la conservazione dei dati all'integrità strutturale a livello di passaggio, ricalcolando i passaggi aritmetici tramite la libreria di algebra computazionale sympy, verificando la coerenza intermedia e imponendo vincoli di dominio. Il framework è stato valutato su GSM8K utilizzando Qwen3-4B-Thinking in cinque cicli di auto-miglioramento, confrontato con quattro baseline: nessuna verifica, verifica del risultato, voto di maggioranza e VSI. L'approccio affronta una modalità di fallimento pervasiva nell'addestramento di auto-miglioramento in cui errori di ragionamento che si accumulano causano un ristagno o un degrado dell'accuratezza. Verificando il processo di ragionamento anziché solo la risposta finale, il VSI mira a sostenere i guadagni di capacità attraverso più cicli di addestramento.

Fatti principali

Articolo arXiv:2603.21558v2 intitolato 'Reliable Self-Improvement Training by Verifying Reasoning, Not Just Answers'
L'addestramento standard di auto-miglioramento soffre di errori di ragionamento che si accumulano in più cicli
Il filtraggio standard conserva le soluzioni basandosi esclusivamente sulla correttezza della risposta finale
Ipotesi fortunate con ragionamenti errati contaminano i dati di addestramento
Il VSI condiziona la conservazione dei dati all'integrità strutturale a livello di passaggio
Il VSI utilizza sympy per ricalcolare i passaggi aritmetici e verificare la coerenza intermedia
Valutato su GSM8K con Qwen3-4B-Thinking in 5 cicli
Confrontato con quattro baseline: nessuna verifica, verifica del risultato, voto di maggioranza e VSI

Il Verified Self-Improvement (VSI) Previene la Deriva del Ragionamento nell'Addestramento dell'IA

Fatti principali

Entità

Istituzioni

Fonti