ARTFEED — Contemporary Art Intelligence

I modelli di IA mostrano una coerenza divergente nella generazione di prescrizioni di esercizio

ai-technology · 2026-04-22

Uno studio recente disponibile su arXiv ha valutato la coerenza delle prescrizioni di esercizio generate da tre grandi modelli linguistici: GPT-4.1, Claude Sonnet 4.6 e Gemini 2.5 Flash. Ogni modello ha prodotto prescrizioni per sei scenari clinici 20 volte in condizioni di temperatura=0, risultando in un totale di 360 output. L'analisi ha esaminato quattro aspetti: similarità semantica, riproducibilità, classificazione FITT ed espressione di sicurezza. GPT-4.1 ha guidato con un punteggio medio di similarità semantica di 0,955, seguito da Gemini 2.5 Flash a 0,950 e Claude Sonnet 4.6 a 0,903. Sono state notate differenze significative tra i modelli (H = 458,41, p < 0,001). In particolare, GPT-4.1 ha generato output completamente unici (100%), mentre Gemini 2.5 Flash ha avuto solo il 27,5% di output unici, indicando che il suo alto punteggio di similarità era dovuto a duplicazione del testo. I risultati suggeriscono che le metriche di similarità semantica potrebbero non riflettere adeguatamente le differenze nel comportamento del modello. Questa ricerca è dettagliata nella preprint arXiv 2604.19598v1 con un tipo di annuncio incrociato.

Fatti principali

  • Lo studio ha confrontato la coerenza delle prescrizioni di esercizio tra tre LLM: GPT-4.1, Claude Sonnet 4.6 e Gemini 2.5 Flash
  • Ogni modello ha generato prescrizioni per sei scenari clinici 20 volte in condizioni di temperatura=0
  • Sono stati analizzati 360 output totali attraverso quattro dimensioni: similarità semantica, riproducibilità dell'output, classificazione FITT ed espressione di sicurezza
  • GPT-4.1 ha avuto la più alta similarità semantica media (0,955), seguito da Gemini 2.5 Flash (0,950) e Claude Sonnet 4.6 (0,903)
  • Differenze significative tra modelli confermate con H = 458,41, p < 0,001
  • GPT-4.1 ha prodotto il 100% di output unici con contenuto semantico stabile
  • Gemini 2.5 Flash ha mostrato solo il 27,5% di output unici a causa della ripetizione del testo
  • Studio pubblicato come arXiv:2604.19598v1 con tipo di annuncio incrociato

Entità

Istituzioni

  • arXiv

Fonti