SePT: L'auto-addestramento potenzia il ragionamento dei LLM senza ricompense esterne

ai-technology · 2026-05-18

La tecnica Self-evolving Post-Training (SePT) consente ai modelli linguistici di migliorare le proprie capacità di ragionamento esclusivamente attraverso le risposte da loro generate, senza bisogno di ricompense esterne. Questo metodo prevede un ciclo di autogenerazione e addestramento sui dati prodotti, utilizzando un sistema di aggiornamento online dei dati in cui ogni nuovo set è creato dall'ultima iterazione del modello. Nelle valutazioni su sei benchmark di ragionamento matematico, SePT supera una solida baseline senza addestramento su vari modelli. Studi di ablazione evidenziano l'importanza sia dell'aggiornamento online dei dati che delle dinamiche di temperatura.

Fatti principali

1. SePT sta per Self-evolving Post-Training.
2. Il metodo utilizza solo le risposte campionate dal modello stesso per l'addestramento.
3. Alterna tra autogenerazione e addestramento sulle risposte autogenerate.
4. Viene utilizzato un meccanismo di aggiornamento online dei dati, in cui ogni nuovo lotto proviene dall'ultimo modello.
5. SePT è stato testato su sei benchmark di ragionamento matematico.
6. Migliora una baseline senza addestramento valutata alla migliore temperatura di decodifica spazzata.
7. Le ablazioni mostrano l'importanza dell'aggiornamento online dei dati e delle dinamiche di temperatura.
8. L'articolo è disponibile su arXiv con ID 2510.18814.

SePT: L'auto-addestramento potenzia il ragionamento dei LLM senza ricompense esterne

Fatti principali

Entità

Istituzioni

Fonti