Pre-addestramento Fill-in-the-Middle e Dinamiche di Memorizzazione Letterale
Un articolo di ricerca disponibile su arXiv (2605.22981) esamina l'impatto del pre-addestramento fill-in-the-middle (FIM) sulle capacità di memorizzazione letterale dei modelli linguistici causali. Lo studio ha coinvolto il pre-addestramento di modelli Llama 3.2 abbinati utilizzando obiettivi FIM e tradizionali da sinistra a destra (LTR) su un dataset FineWeb-Gutenberg che includeva estratti ripetuti da Gutenberg. L'uso di sonde basate su prefissi ha indicato che FIM è più efficace nel recuperare brevi span o corrispondenze parziali, mentre LTR tende ad assegnare alta confidenza a continuazioni più lunghe ed esatte. Il tasso di estrazione letterale con FIM aumenta approssimativamente in modo lineare con le ripetizioni. Le sonde progettate per il formato nativo FIM hanno mostrato che il contesto del suffisso da solo è insufficiente, poiché il richiamo dipende principalmente dal contesto del prefisso. Valutare solo una lunghezza di span o un formato di sonda potrebbe trascurare dinamiche significative.
Fatti principali
- Lo studio esamina le dinamiche di memorizzazione del pre-addestramento fill-in-the-middle (FIM)
- Modelli Llama 3.2 abbinati pre-addestrati con obiettivi FIM e da sinistra a destra (LTR)
- Corpus: FineWeb-Gutenberg con estratti ripetuti da Gutenberg
- FIM recupera più spesso brevi span o corrispondenze parziali nelle sonde basate su prefissi
- LTR assegna più spesso alta confidenza a continuazioni esatte lunghe
- L'estrazione letterale con FIM cresce approssimativamente in modo lineare con le ripetizioni
- Le sonde in formato nativo FIM mostrano che il contesto del suffisso è insufficiente per il richiamo
- Valutare solo una lunghezza di span o un formato di sonda può far perdere dinamiche importanti
Entità
Istituzioni
- arXiv