Il conteggio dei carboidrati tramite IA fallisce il test di riproducibilità in uno studio con 27.000 query
Un recente studio preprint indica che i migliori modelli di IA hanno difficoltà a stimare con precisione i livelli di carboidrati da immagini di cibo, con discrepanze significative osservate in valutazioni ripetute. Un ricercatore anonimo ha condotto l'analisi su 13 immagini di cibo utilizzando quattro modelli di IA—OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro e Google Gemini 3.1 Pro Preview—eseguendo oltre 500 query per ciascuno, per un totale di 26.904 query. I risultati hanno rivelato stime incoerenti, con le previsioni di Gemini 2.5 Pro per la paella che variavano tra 55 g e 484 g. Claude ha mostrato la minore variazione, mentre i modelli Gemini hanno spesso superato il 10-20%. Sono stati notati errori nell'identificazione del cibo in 8 immagini su 13. Lo studio, che sottolinea bias sistematico e variabilità stocastica, suggerisce di effettuare 3-5 query per una maggiore accuratezza e sarà sottoposto a Diabetologia per la revisione paritaria.
Fatti principali
- Sono state effettuate 26.904 query su 13 foto di cibo a 4 modelli di IA
- Modelli testati: OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro, Google Gemini 3.1 Pro Preview
- Le stime di Gemini 2.5 Pro per la paella variavano da 55 g a 484 g (intervallo di 429 g)
- Claude ha mostrato la minore variazione ma era costantemente errato su un panino al formaggio (28 g vs 40 g)
- GPT-5.4 ha mediato 74 g per il panino al formaggio (34 g in più)
- Errori nell'identificazione del cibo si sono verificati in 8 immagini su 13
- I punteggi di confidenza non erano correlati all'accuratezza
- Lo studio è un preprint in fase di sottomissione a Diabetologia
Entità
Istituzioni
- OpenAI
- Anthropic
- iAPS
- Diabetologia