TextTeacher: I modelli linguistici migliorano la precisione visiva di 2,7 punti

ai-technology · 2026-05-23

Un nuovo metodo chiamato TextTeacher utilizza gli embedding di modelli linguistici per migliorare la classificazione delle immagini senza modificare l'inferenza. L'approccio, introdotto in un articolo su arXiv (2605.22098), aggiunge un obiettivo ausiliario leggero durante l'addestramento che inietta ancore semantiche da un codificatore testuale congelato. Su ImageNet con backbone ViT standard, la precisione migliora fino a 2,7 punti percentuali, con guadagni di trasferimento costanti che in media raggiungono +1,0 punto. TextTeacher supera la distillazione della conoscenza visiva a parità di budget computazionale.

Fatti principali

TextTeacher è un nuovo obiettivo ausiliario per la classificazione delle immagini
Utilizza un codificatore testuale pre-addestrato e congelato e una proiezione leggera
Le ancore semantiche sono prodotte dalle didascalie delle immagini
Il modello al momento dell'inferenza rimane invariato
Su ImageNet con ViT, la precisione migliora fino a +2,7 punti percentuali
Il guadagno medio di trasferimento è di +1,0 punto percentuale
Supera la distillazione della conoscenza visiva
Articolo pubblicato su arXiv con ID 2605.22098

TextTeacher: I modelli linguistici migliorano la precisione visiva di 2,7 punti

Fatti principali

Entità

Istituzioni

Fonti