FoodCHA: Un Agente LLM Multimodale per l'Analisi Fine-Grained del Cibo
FoodCHA è un framework agentico multimodale proposto per l'analisi fine-grained del cibo. Riformula il riconoscimento alimentare come un processo decisionale gerarchico, ancorando progressivamente le previsioni dalle categorie di alto livello alle sottocategorie e agli stili di cottura. Il sistema affronta le sfide nelle immagini alimentari reali, come l'elevata similarità intra-classe e la presenza di più alimenti per immagine. Migliora i modelli di deep learning che faticano con attributi fine-grained e i modelli visione-linguaggio che producono etichette non canoniche. Il framework mira a consentire un monitoraggio dietetico accurato tramite dispositivi mobili con fotocamera e indossabili.
Fatti principali
- FoodCHA è un framework agentico multimodale per il riconoscimento alimentare.
- Riformula il riconoscimento alimentare come un processo decisionale gerarchico.
- Guida l'identificazione delle sottocategorie utilizzando categorie di alto livello.
- Guida il riconoscimento dello stile di cottura utilizzando le sottocategorie.
- Affronta l'elevata similarità intra-classe e la presenza di più alimenti per immagine.
- I modelli di deep learning faticano con attributi fine-grained come lo stile di cottura.
- I modelli visione-linguaggio possono produrre etichette non canoniche.
- Il framework è destinato al monitoraggio dietetico tramite dispositivi mobili e indossabili.
Entità
Istituzioni
- arXiv