Efficacia del SFT negli LLM spiegata attraverso la prospettiva dell'interazione

ai-technology · 2026-05-20

Un nuovo articolo su arXiv (2605.17967) indaga perché il fine-tuning supervisionato (SFT) funzioni bene per piccole reti neurali ma possa danneggiare i grandi modelli linguistici (LLM). Utilizzando spiegazioni basate sull'interazione, i ricercatori hanno scoperto che l'SFT rimuove principalmente interazioni simili a rumore senza acquisirne di nuove affidabili, e questa fase di denoising è estremamente breve. Il proseguimento del fine-tuning introduce interazioni overfitted. Lo studio convalida questi risultati su più LLM e dataset, offrendo spunti sull'arresto anticipato e indicazioni pratiche per l'addestramento degli LLM.

Fatti principali

L'articolo arXiv 2605.17967 esplora l'efficacia dell'SFT negli LLM
L'SFT rimuove interazioni simili a rumore ma raramente ne acquisisce di nuove affidabili
La fase di denoising è estremamente breve
Il proseguimento del fine-tuning introduce interazioni overfitted
Convalidato su più LLM e dataset
Fornisce spunti sull'arresto anticipato
Spiegazioni basate sull'interazione utilizzate come metrica
L'SFT può produrre effetti inconsistenti o dannosi sugli LLM

Efficacia del SFT negli LLM spiegata attraverso la prospettiva dell'interazione

Fatti principali

Entità

Istituzioni

Fonti