ARTFEED — Contemporary Art Intelligence

La distillazione dell'autoconsistenza fallisce sulla confidenza verbale di Gemma 3 4B

ai-technology · 2026-04-29

Uno studio preregistrato ha indagato se l'uso del fine-tuning supervisionato condizionato dalla confidenza (CSFT) con obiettivi di autoconsistenza potesse migliorare la calibrazione della confidenza verbale in modelli linguistici istruiti più piccoli. Hanno testato questo su Gemma 3 4B-it, applicando un filtro modale per concentrarsi solo sugli elementi di addestramento con risposte modali corrette. Sfortunatamente, ciò ha portato a un calo dell'AUROC2 da 0,554 a 0,509, attribuito al collasso dell'entropia delle etichette. In un follow-up, hanno rimosso il filtro e addestrato su tutti i 2.000 elementi di calibrazione, creando un discriminatore binario di correttezza verbale che ha raggiunto AUROC2 = 0,774 sul TriviaQA tenuto da parte. Questo metodo ha condensato efficacemente un segnale di autoconsistenza a 10 campioni (AUROC2 = 0,999) in una lettura a passaggio singolo più efficiente, mentre un controllo con obiettivi mescolati non ha mostrato miglioramenti.

Fatti principali

  • Protocollo preregistrato Fase 0 su Gemma 3 4B-it
  • Il filtro modale ha limitato l'addestramento agli elementi con risposte modali corrette
  • AUROC2 è sceso da 0,554 a 0,509
  • Il salvataggio esplorativo ha rimosso il filtro e addestrato su tutti i 2.000 elementi di calibrazione
  • Il discriminatore binario di correttezza verbale ha raggiunto AUROC2 = 0,774 sul TriviaQA tenuto da parte
  • Il segnale di autoconsistenza a 10 campioni aveva AUROC2 = 0,999
  • La lettura a passaggio singolo ha superato l'entropia del logit (0,701)
  • Il controllo con obiettivi mescolati non ha mostrato miglioramenti

Entità

Istituzioni

  • arXiv

Fonti