Epicure: Mappe delle Embedding degli Ingredienti Alimentari con IA
Un team di ricercatori ha presentato Epicure, un sistema innovativo basato su tre embedding di ingredienti skip-gram. Il fondamento di questo progetto è un dataset multilingue completo composto da 4,14 milioni di ricette, ottenuto da 11 fonti distinte in sette lingue, tra cui inglese e cinese. Per migliorare i dati sugli ingredienti, lo studio ha standardizzato le stringhe grezze degli ingredienti in 1.790 voci. Inoltre, l'iniziativa ha creato grafi complessi, con 203.508 connessioni tra ingredienti e 80.019 collegamenti ingrediente-composto con 2.247 composti classificati in 15 gruppi. La ricerca, che include tre varianti di Metapath2Vec, è stata presentata su arXiv ed è accompagnata da 16 file CSV supplementari per un'esplorazione approfondita.
Fatti principali
- 1. Epicure è una famiglia di tre embedding di ingredienti skip-gram.
- 2. Addestrato su 4,14 milioni di ricette provenienti da 11 fonti.
- 3. Le ricette coprono sette lingue: inglese, cinese, russo, vietnamita, spagnolo, turco, indonesiano, tedesco e inglese-indiano.
- 4. Stringhe grezze degli ingredienti normalizzate in 1.790 voci canoniche tramite una pipeline potenziata da LLM.
- 5. Costruito un grafo ingrediente-ingrediente NPMI con 203.508 archi.
- 6. Costruito un grafo ingrediente-composto tipizzato FlavorDB con 80.019 archi e 2.247 nodi composti tipizzati in 15 categorie.
- 7. Tre varianti di Metapath2Vec: Cooc, Chem e Core.
- 8. Cooc percorre solo il grafo di co-occorrenza; Chem percorre solo i metapath composti tipizzati; Core combina entrambi.
- 9. Presentato su arXiv; include 16 file CSV ancillari.
- 10. I modelli differiscono solo nello schema di random walk, condividendo architettura e iperparametri.
Entità
Istituzioni
- arXiv
- FlavorDB