ProFit: La selezione dei token guidata dalla probabilità migliora il fine-tuning dei LLM
ProFit è una tecnica innovativa progettata per affrontare l'overfitting durante il supervised fine-tuning (SFT) dei grandi modelli linguistici (LLM) mascherando strategicamente i token con bassa probabilità. Il SFT convenzionale tende ad allinearsi a una singola risposta di riferimento, trascurando la natura multiforme del linguaggio e portando a un overfitting su espressioni meno essenziali. Sebbene l'uso di più risposte di riferimento potrebbe mitigare questo problema, spesso è irrealizzabile a causa degli elevati requisiti di dati e calcolo. ProFit sfrutta la relazione tra probabilità del token e significato semantico: i token ad alta probabilità incarnano la struttura logica fondamentale, mentre quelli a bassa probabilità sono in gran parte intercambiabili. Mascherando questi token a bassa probabilità, ProFit evita efficacemente l'overfitting superficiale senza la necessità di più riferimenti. Questo metodo è descritto in un articolo disponibile su arXiv (2601.09195v3), classificato come annuncio di sostituzione incrociata.
Fatti principali
- 1. ProFit maschera selettivamente i token a bassa probabilità durante il SFT.
- 2. Il SFT tradizionale si adatta eccessivamente a espressioni non fondamentali a causa dell'allineamento a un singolo riferimento.
- 3. Più risposte di riferimento sono costose in termini di dati e calcolo.
- 4. I token ad alta probabilità portano il quadro logico fondamentale.
- 5. I token a bassa probabilità sono per lo più espressioni sostituibili.
- 6. Articolo disponibile su arXiv: 2601.09195v3.
- 7. Tipo di annuncio: replace-cross.
- 8. Il metodo mira a mitigare l'overfitting da singolo riferimento.
Entità
Istituzioni
- arXiv