ARTFEED — Contemporary Art Intelligence

COMODO Framework Consente un Riconoscimento Efficiente delle Attività Umane tramite Trasferimento di Conoscenza da Video a IMU

ai-technology · 2026-04-22

Un nuovo framework di ricerca chiamato COMODO affronta le limitazioni dei sistemi di riconoscimento delle attività umane indossabili trasferendo conoscenza semantica dai video alle unità di misura inerziale senza dati etichettati. I modelli video egocentrici catturano informazioni ricche ma soffrono di elevato consumo energetico, problemi di privacy e dipendenze dall'illuminazione, rendendo impraticabile il riconoscimento continuo sul dispositivo. Al contrario, i sensori IMU sono efficienti dal punto di vista energetico e rispettosi della privacy, ma mancano di dataset annotati su larga scala, risultando in una generalizzazione più debole. COMODO colma questa lacuna attraverso la distillazione auto-supervisionata cross-modale, utilizzando un codificatore video pre-addestrato e congelato per allineare le distribuzioni delle feature tra gli embedding video e IMU. Questo approccio costruisce una coda di istanze dinamica per facilitare il trasferimento di conoscenza, consentendo una comprensione più efficiente delle attività per i sistemi indossabili centrati sull'uomo. La ricerca è stata pubblicata su arXiv con identificatore 2503.07259v2, classificata come annuncio di sostituzione cross.

Fatti principali

  • COMODO è un framework di distillazione auto-supervisionata cross-modale
  • Trasferisce conoscenza semantica dai video alle IMU senza richiedere etichette
  • Affronta il compromesso tra modelli basati su video e sensori IMU per il riconoscimento delle attività umane
  • I modelli video hanno elevato consumo energetico, preoccupazioni sulla privacy e dipendenza dall'illuminazione
  • I sensori IMU sono efficienti dal punto di vista energetico e rispettosi della privacy ma mancano di dataset annotati su larga scala
  • Utilizza un codificatore video pre-addestrato e congelato per allineare le distribuzioni delle feature
  • Costruisce una coda di istanze dinamica per l'allineamento degli embedding video-IMU
  • Ricerca pubblicata su arXiv con identificatore 2503.07259v2

Entità

Istituzioni

  • arXiv

Fonti