Il Mascheramento Basato sull'Entropia Migliora l'Addestramento dei Modelli Linguistici Mascherati
Un nuovo studio su arXiv propone una strategia di mascheramento dei token basata sull'entropia per la modellazione linguistica mascherata (MLM), un obiettivo di pre-addestramento standard per i modelli linguistici basati su encoder. Invece del mascheramento casuale, il metodo seleziona i token in base all'entropia del modello sulle previsioni dei token, mirando a token più informativi e incerti per migliorare l'efficacia dell'addestramento. Gli autori introducono anche un approccio di auto-mascheramento che migliora l'efficienza dell'addestramento senza richiedere un modello di riferimento esterno. I risultati sperimentali mostrano miglioramenti medi delle prestazioni rispetto al mascheramento casuale convenzionale. Il documento è disponibile con ID arXiv 2605.28526.
Fatti principali
- ID del documento arXiv: 2605.28526
- Propone il mascheramento basato sull'entropia per MLM
- Utilizza l'entropia del modello sulle previsioni dei token per selezionare i token
- Mira a token più informativi e incerti
- Introduce un nuovo approccio di auto-mascheramento
- L'auto-mascheramento non si basa su un modello di riferimento esterno
- I risultati sperimentali mostrano un miglioramento medio delle prestazioni
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv