ARTFEED — Contemporary Art Intelligence

TextTeacher: I modelli linguistici migliorano la precisione visiva di 2,7 punti

ai-technology · 2026-05-23

Un nuovo metodo chiamato TextTeacher utilizza gli embedding di modelli linguistici per migliorare la classificazione delle immagini senza modificare l'inferenza. L'approccio, introdotto in un articolo su arXiv (2605.22098), aggiunge un obiettivo ausiliario leggero durante l'addestramento che inietta ancore semantiche da un codificatore testuale congelato. Su ImageNet con backbone ViT standard, la precisione migliora fino a 2,7 punti percentuali, con guadagni di trasferimento costanti che in media raggiungono +1,0 punto. TextTeacher supera la distillazione della conoscenza visiva a parità di budget computazionale.

Fatti principali

  • TextTeacher è un nuovo obiettivo ausiliario per la classificazione delle immagini
  • Utilizza un codificatore testuale pre-addestrato e congelato e una proiezione leggera
  • Le ancore semantiche sono prodotte dalle didascalie delle immagini
  • Il modello al momento dell'inferenza rimane invariato
  • Su ImageNet con ViT, la precisione migliora fino a +2,7 punti percentuali
  • Il guadagno medio di trasferimento è di +1,0 punto percentuale
  • Supera la distillazione della conoscenza visiva
  • Articolo pubblicato su arXiv con ID 2605.22098

Entità

Istituzioni

  • arXiv

Fonti