Pre-addestramento Fill-in-the-Middle e Dinamiche di Memorizzazione Letterale

other · 2026-05-25

Un articolo di ricerca disponibile su arXiv (2605.22981) esamina l'impatto del pre-addestramento fill-in-the-middle (FIM) sulle capacità di memorizzazione letterale dei modelli linguistici causali. Lo studio ha coinvolto il pre-addestramento di modelli Llama 3.2 abbinati utilizzando obiettivi FIM e tradizionali da sinistra a destra (LTR) su un dataset FineWeb-Gutenberg che includeva estratti ripetuti da Gutenberg. L'uso di sonde basate su prefissi ha indicato che FIM è più efficace nel recuperare brevi span o corrispondenze parziali, mentre LTR tende ad assegnare alta confidenza a continuazioni più lunghe ed esatte. Il tasso di estrazione letterale con FIM aumenta approssimativamente in modo lineare con le ripetizioni. Le sonde progettate per il formato nativo FIM hanno mostrato che il contesto del suffisso da solo è insufficiente, poiché il richiamo dipende principalmente dal contesto del prefisso. Valutare solo una lunghezza di span o un formato di sonda potrebbe trascurare dinamiche significative.

Fatti principali

Lo studio esamina le dinamiche di memorizzazione del pre-addestramento fill-in-the-middle (FIM)
Modelli Llama 3.2 abbinati pre-addestrati con obiettivi FIM e da sinistra a destra (LTR)
Corpus: FineWeb-Gutenberg con estratti ripetuti da Gutenberg
FIM recupera più spesso brevi span o corrispondenze parziali nelle sonde basate su prefissi
LTR assegna più spesso alta confidenza a continuazioni esatte lunghe
L'estrazione letterale con FIM cresce approssimativamente in modo lineare con le ripetizioni
Le sonde in formato nativo FIM mostrano che il contesto del suffisso è insufficiente per il richiamo
Valutare solo una lunghezza di span o un formato di sonda può far perdere dinamiche importanti

Pre-addestramento Fill-in-the-Middle e Dinamiche di Memorizzazione Letterale

Fatti principali

Entità

Istituzioni

Fonti