SAERL: Utilizzo di Autoencoder Sparsi per Guidare l'Ingegneria dei Dati nel Post-Addestramento degli LLM
Un nuovo framework chiamato SAERL è stato introdotto dai ricercatori, che utilizza i meccanismi interni degli Autoencoder Sparsi (SAE) per creare dataset di post-addestramento per modelli linguistici di grandi dimensioni (LLM). Questo framework cattura tre caratteristiche chiave dei dati—diversità, difficoltà e qualità—attraverso caratteristiche derivate dagli SAE. Consente di gestire la diversità dei batch tramite clustering nello spazio SAE, organizza un curriculum dal facile al difficile basato su un proxy di difficoltà e filtra i dati utilizzando una sonda di qualità. Implementato su Qwen2.5-Math-1.5B, SAERL migliora l'accuratezza media del 3,00% rispetto al GRPO standard e raggiunge l'accuratezza target con il 20% in meno di passaggi di addestramento, mostrando miglioramenti consistenti su varie dimensioni del modello e algoritmi di apprendimento per rinforzo.
Fatti principali
- SAERL è un framework di ingegneria dei dati per l'apprendimento per rinforzo (RL) degli LLM.
- Utilizza Autoencoder Sparsi (SAE) per estrarre gli interni del modello.
- Tre proprietà intrinseche dei dati: diversità, difficoltà, qualità.
- Operazioni: clustering nello spazio SAE con moderata miscelazione dei batch, proxy di difficoltà per l'ordinamento curriculare, sonda di qualità per il filtraggio.
- Migliora l'accuratezza media del 3,00% rispetto al GRPO standard.
- Raggiunge l'accuratezza target con il 20% in meno di passaggi di addestramento su Qwen2.5-Math-1.5B.
- Guadagni consistenti su diverse scale di modello e algoritmi RL.
- Pubblicato su arXiv: 2605.27354.
Entità
Istituzioni
- arXiv