ARTFEED — Contemporary Art Intelligence

L'Addestramento Introspettivo Potenzia lo Scaling degli LLM in Tutte le Fasi

ai-technology · 2026-05-22

Un nuovo metodo chiamato Addestramento Introspettivo (IXT) migliora l'efficienza dello scaling in tutte le fasi dell'addestramento dei modelli linguistici di grandi dimensioni, dal pre-addestramento al post-addestramento. Ispirato dall'apprendimento per rinforzo condizionato da ricompensa offline, IXT utilizza un modello di ricompensa pensante per annotare i dati di addestramento con feedback critico in linguaggio naturale, consentendo un addestramento consapevole della qualità fin dalle prime fasi. Condizionando i dati con prefissi di feedback generato, il metodo garantisce che non tutti i token siano trattati allo stesso modo. Esperimenti su LLM densi basati su transformer da 7,5-12B addestrati da zero fino a 18 trilioni di token mostrano che IXT migliora lo scaling in tutte le fasi di addestramento. L'articolo è disponibile su arXiv con ID 2605.20285.

Fatti principali

  • L'Addestramento Introspettivo (IXT) è proposto per uno scaling efficiente in tutte le fasi di addestramento degli LLM.
  • IXT è ispirato dall'apprendimento per rinforzo condizionato da ricompensa offline.
  • Utilizza un modello di ricompensa pensante per annotare i dati con feedback critico in linguaggio naturale.
  • I dati sono condizionati con prefissi di feedback generato per un addestramento consapevole della qualità.
  • Esperimenti condotti su LLM densi basati su transformer da 7,5-12B.
  • Modelli addestrati da zero fino a 18 trilioni di token.
  • IXT migliora lo scaling in tutte le fasi di addestramento.
  • Articolo disponibile su arXiv con ID 2605.20285.

Entità

Istituzioni

  • arXiv

Fonti