L'Addestramento Introspettivo Potenzia lo Scaling degli LLM in Tutte le Fasi
Un nuovo metodo chiamato Addestramento Introspettivo (IXT) migliora l'efficienza dello scaling in tutte le fasi dell'addestramento dei modelli linguistici di grandi dimensioni, dal pre-addestramento al post-addestramento. Ispirato dall'apprendimento per rinforzo condizionato da ricompensa offline, IXT utilizza un modello di ricompensa pensante per annotare i dati di addestramento con feedback critico in linguaggio naturale, consentendo un addestramento consapevole della qualità fin dalle prime fasi. Condizionando i dati con prefissi di feedback generato, il metodo garantisce che non tutti i token siano trattati allo stesso modo. Esperimenti su LLM densi basati su transformer da 7,5-12B addestrati da zero fino a 18 trilioni di token mostrano che IXT migliora lo scaling in tutte le fasi di addestramento. L'articolo è disponibile su arXiv con ID 2605.20285.
Fatti principali
- L'Addestramento Introspettivo (IXT) è proposto per uno scaling efficiente in tutte le fasi di addestramento degli LLM.
- IXT è ispirato dall'apprendimento per rinforzo condizionato da ricompensa offline.
- Utilizza un modello di ricompensa pensante per annotare i dati con feedback critico in linguaggio naturale.
- I dati sono condizionati con prefissi di feedback generato per un addestramento consapevole della qualità.
- Esperimenti condotti su LLM densi basati su transformer da 7,5-12B.
- Modelli addestrati da zero fino a 18 trilioni di token.
- IXT migliora lo scaling in tutte le fasi di addestramento.
- Articolo disponibile su arXiv con ID 2605.20285.
Entità
Istituzioni
- arXiv