Il Mascheramento Basato sull'Entropia Migliora l'Addestramento dei Modelli Linguistici Mascherati

other · 2026-05-28

Un nuovo studio su arXiv propone una strategia di mascheramento dei token basata sull'entropia per la modellazione linguistica mascherata (MLM), un obiettivo di pre-addestramento standard per i modelli linguistici basati su encoder. Invece del mascheramento casuale, il metodo seleziona i token in base all'entropia del modello sulle previsioni dei token, mirando a token più informativi e incerti per migliorare l'efficacia dell'addestramento. Gli autori introducono anche un approccio di auto-mascheramento che migliora l'efficienza dell'addestramento senza richiedere un modello di riferimento esterno. I risultati sperimentali mostrano miglioramenti medi delle prestazioni rispetto al mascheramento casuale convenzionale. Il documento è disponibile con ID arXiv 2605.28526.

Fatti principali

ID del documento arXiv: 2605.28526
Propone il mascheramento basato sull'entropia per MLM
Utilizza l'entropia del modello sulle previsioni dei token per selezionare i token
Mira a token più informativi e incerti
Introduce un nuovo approccio di auto-mascheramento
L'auto-mascheramento non si basa su un modello di riferimento esterno
I risultati sperimentali mostrano un miglioramento medio delle prestazioni
Pubblicato su arXiv

Il Mascheramento Basato sull'Entropia Migliora l'Addestramento dei Modelli Linguistici Mascherati

Fatti principali

Entità

Istituzioni

Fonti