La distillazione dell'autoconsistenza fallisce sulla confidenza verbale di Gemma 3 4B

ai-technology · 2026-04-29

Uno studio preregistrato ha indagato se l'uso del fine-tuning supervisionato condizionato dalla confidenza (CSFT) con obiettivi di autoconsistenza potesse migliorare la calibrazione della confidenza verbale in modelli linguistici istruiti più piccoli. Hanno testato questo su Gemma 3 4B-it, applicando un filtro modale per concentrarsi solo sugli elementi di addestramento con risposte modali corrette. Sfortunatamente, ciò ha portato a un calo dell'AUROC2 da 0,554 a 0,509, attribuito al collasso dell'entropia delle etichette. In un follow-up, hanno rimosso il filtro e addestrato su tutti i 2.000 elementi di calibrazione, creando un discriminatore binario di correttezza verbale che ha raggiunto AUROC2 = 0,774 sul TriviaQA tenuto da parte. Questo metodo ha condensato efficacemente un segnale di autoconsistenza a 10 campioni (AUROC2 = 0,999) in una lettura a passaggio singolo più efficiente, mentre un controllo con obiettivi mescolati non ha mostrato miglioramenti.

Fatti principali

Protocollo preregistrato Fase 0 su Gemma 3 4B-it
Il filtro modale ha limitato l'addestramento agli elementi con risposte modali corrette
AUROC2 è sceso da 0,554 a 0,509
Il salvataggio esplorativo ha rimosso il filtro e addestrato su tutti i 2.000 elementi di calibrazione
Il discriminatore binario di correttezza verbale ha raggiunto AUROC2 = 0,774 sul TriviaQA tenuto da parte
Il segnale di autoconsistenza a 10 campioni aveva AUROC2 = 0,999
La lettura a passaggio singolo ha superato l'entropia del logit (0,701)
Il controllo con obiettivi mescolati non ha mostrato miglioramenti

La distillazione dell'autoconsistenza fallisce sulla confidenza verbale di Gemma 3 4B

Fatti principali

Entità

Istituzioni

Fonti