Il Decadimento del Tasso di Apprendimento Minaccia il Pre-addestramento Basato su Curriculum per LLM

ai-technology · 2026-04-27

Un nuovo articolo su arXiv (2511.18903) identifica un difetto critico nel pre-addestramento basato su curriculum per i grandi modelli linguistici (LLM): l'incompatibilità tra l'ordine crescente di qualità dei dati e i programmi di decadimento del tasso di apprendimento (LR). Mentre l'addestramento curricolare supera la mescolanza casuale con LR costante, il suo vantaggio svanisce con il decadimento standard di LR. Gli autori propongono due semplici mitigazioni: utilizzare un decadimento di LR più moderato o adattare il programma curricolare. Lo studio evidenzia che i dati di alta qualità sono scarsi e le strategie curricolari ingenue ne sprecano il potenziale.

Fatti principali

L'articolo arXiv 2511.18903 identifica l'incompatibilità tra l'ordine crescente di qualità dei dati e i programmi di decadimento del tasso di apprendimento nel pre-addestramento curricolare per LLM
L'addestramento curricolare supera la mescolanza casuale con tasso di apprendimento costante
Il vantaggio dell'addestramento curricolare diminuisce con i programmi standard di decadimento di LR
Due strategie di mitigazione proposte: decadimento di LR più moderato o programma curricolare adattato
La scarsità di dati di alta qualità motiva il pre-addestramento basato su curriculum
Studi precedenti hanno riportato miglioramenti limitati dal pre-addestramento curricolare
Gli esperimenti mostrano che l'incompatibilità può essere mitigata con strategie semplici
L'articolo è un annuncio replace-cross su arXiv

Il Decadimento del Tasso di Apprendimento Minaccia il Pre-addestramento Basato su Curriculum per LLM

Fatti principali

Entità

Istituzioni

Fonti