FlowLM: Generazione di Testo in Pochi Passi tramite Adattamento da Diffusione a Flow
FlowLM è un modello linguistico che utilizza il flow matching, sviluppato a partire da modelli linguistici di diffusione pre-addestrati attraverso un processo di fine-tuning semplificato. Trasformando i percorsi di campionamento curvi dei modelli di diffusione in flussi lineari, FlowLM consente una generazione di alta qualità in pochi passi, ottenendo risultati che eguagliano o superano quelli del campionamento di diffusione a 2000 passi, richiedendo al contempo epoche di addestramento minime. La versione fine-tunata di FlowLM raggiunge le sue prestazioni massime con solo la metà delle epoche di addestramento rispetto a partire da zero, con entrambi i metodi che superano significativamente il modello di diffusione originale. Inoltre, la ricerca conferma un obiettivo di addestramento più efficace per il flow matching: prevedere dati puliti per guidare costantemente il campionamento verso la distribuzione reale dei dati. I risultati empirici evidenziano l'efficacia del metodo nel produrre una generazione di testo di alta qualità in pochi passi.
Fatti principali
- 1. FlowLM è un modello linguistico basato su flow matching.
- 2. È trasformato da modelli linguistici di diffusione pre-addestrati tramite fine-tuning efficiente.
- 3. Riallinea le traiettorie di campionamento curve dei modelli di diffusione in flussi lineari.
- 4. Consente una generazione di alta qualità in pochi passi, rivaleggiando con il campionamento di diffusione a 2000 passi.
- 5. FlowLM fine-tunato raggiunge la saturazione delle prestazioni con la metà delle epoche di addestramento rispetto all'addestramento da zero.
- 6. Sia il modello fine-tunato che quello addestrato da zero superano il modello di diffusione originale.
- 7. Un obiettivo di addestramento più efficace è prevedere dati puliti.
- 8. L'approccio è validato per la generazione di testo di alta qualità in pochi passi.
Entità
Istituzioni
- arXiv