Prefix-RFT: Metodo Ibrido di Post-Addestramento per LLM

other · 2026-05-18

Un nuovo approccio ibrido al post-addestramento di modelli linguistici di grandi dimensioni, Prefix-RFT, combina il fine-tuning supervisionato (SFT) e il fine-tuning per rinforzo (RFT) per superare le rispettive limitazioni. L'SFT eccelle nell'imitare i dati dimostrativi ma soffre di clonazione comportamentale, mentre l'RFT migliora le prestazioni ma è sensibile alla politica iniziale e incline a comportamenti imprevisti. Prefix-RFT sinergizza l'apprendimento sia dalla dimostrazione che dall'esplorazione, utilizzando problemi di ragionamento matematico come banco di prova. Il metodo supera l'SFT standalone, l'RFT standalone e l'RFT a politica mista parallela. L'articolo evidenzia la natura complementare di SFT e RFT, proponendo una visione unificata di queste tecniche.

Fatti principali

Prefix-RFT è un approccio ibrido che combina SFT e RFT
L'SFT eccelle nell'imitare i dati dimostrativi ma può portare a generalizzazioni problematiche
L'RFT migliora le prestazioni ma è sensibile alla politica iniziale
Prefix-RFT supera l'SFT e l'RFT standalone
Prefix-RFT supera l'RFT a politica mista parallela
Problemi di ragionamento matematico sono stati usati come banco di prova
L'approccio è descritto come semplice ma efficace
L'articolo propone una visione unificata di SFT e RFT

Entità

—

Fonti

arXiv cs.AI — 2026-05-18