La distillazione dell'autoconsistenza fallisce sulla confidenza verbale di Gemma 3 4B
Uno studio preregistrato ha indagato se l'uso del fine-tuning supervisionato condizionato dalla confidenza (CSFT) con obiettivi di autoconsistenza potesse migliorare la calibrazione della confidenza verbale in modelli linguistici istruiti più piccoli. Hanno testato questo su Gemma 3 4B-it, applicando un filtro modale per concentrarsi solo sugli elementi di addestramento con risposte modali corrette. Sfortunatamente, ciò ha portato a un calo dell'AUROC2 da 0,554 a 0,509, attribuito al collasso dell'entropia delle etichette. In un follow-up, hanno rimosso il filtro e addestrato su tutti i 2.000 elementi di calibrazione, creando un discriminatore binario di correttezza verbale che ha raggiunto AUROC2 = 0,774 sul TriviaQA tenuto da parte. Questo metodo ha condensato efficacemente un segnale di autoconsistenza a 10 campioni (AUROC2 = 0,999) in una lettura a passaggio singolo più efficiente, mentre un controllo con obiettivi mescolati non ha mostrato miglioramenti.
Fatti principali
- Protocollo preregistrato Fase 0 su Gemma 3 4B-it
- Il filtro modale ha limitato l'addestramento agli elementi con risposte modali corrette
- AUROC2 è sceso da 0,554 a 0,509
- Il salvataggio esplorativo ha rimosso il filtro e addestrato su tutti i 2.000 elementi di calibrazione
- Il discriminatore binario di correttezza verbale ha raggiunto AUROC2 = 0,774 sul TriviaQA tenuto da parte
- Il segnale di autoconsistenza a 10 campioni aveva AUROC2 = 0,999
- La lettura a passaggio singolo ha superato l'entropia del logit (0,701)
- Il controllo con obiettivi mescolati non ha mostrato miglioramenti
Entità
Istituzioni
- arXiv