ARTFEED — Contemporary Art Intelligence

Il Verified Self-Improvement (VSI) Previene la Deriva del Ragionamento nell'Addestramento dell'IA

ai-technology · 2026-06-01

Un nuovo articolo su arXiv (2603.21558v2) introduce il Verified Self-Improvement (VSI), un metodo per prevenire l'accumulo di errori di ragionamento durante l'addestramento di auto-miglioramento dei modelli di IA. I ricercatori identificano che il filtraggio standard basato esclusivamente sulla correttezza della risposta finale permette a ipotesi fortunate con ragionamenti errati di contaminare i dati di addestramento, causando un ristagno o un degrado dell'accuratezza in più cicli. Il VSI condiziona la conservazione dei dati all'integrità strutturale a livello di passaggio, ricalcolando i passaggi aritmetici tramite la libreria di algebra computazionale sympy, verificando la coerenza intermedia e imponendo vincoli di dominio. Il framework è stato valutato su GSM8K utilizzando Qwen3-4B-Thinking in cinque cicli di auto-miglioramento, confrontato con quattro baseline: nessuna verifica, verifica del risultato, voto di maggioranza e VSI. L'approccio affronta una modalità di fallimento pervasiva nell'addestramento di auto-miglioramento in cui errori di ragionamento che si accumulano causano un ristagno o un degrado dell'accuratezza. Verificando il processo di ragionamento anziché solo la risposta finale, il VSI mira a sostenere i guadagni di capacità attraverso più cicli di addestramento.

Fatti principali

  • Articolo arXiv:2603.21558v2 intitolato 'Reliable Self-Improvement Training by Verifying Reasoning, Not Just Answers'
  • L'addestramento standard di auto-miglioramento soffre di errori di ragionamento che si accumulano in più cicli
  • Il filtraggio standard conserva le soluzioni basandosi esclusivamente sulla correttezza della risposta finale
  • Ipotesi fortunate con ragionamenti errati contaminano i dati di addestramento
  • Il VSI condiziona la conservazione dei dati all'integrità strutturale a livello di passaggio
  • Il VSI utilizza sympy per ricalcolare i passaggi aritmetici e verificare la coerenza intermedia
  • Valutato su GSM8K con Qwen3-4B-Thinking in 5 cicli
  • Confrontato con quattro baseline: nessuna verifica, verifica del risultato, voto di maggioranza e VSI

Entità

Istituzioni

  • arXiv

Fonti