I modelli di IA mostrano una coerenza divergente nella generazione di prescrizioni di esercizio
Uno studio recente disponibile su arXiv ha valutato la coerenza delle prescrizioni di esercizio generate da tre grandi modelli linguistici: GPT-4.1, Claude Sonnet 4.6 e Gemini 2.5 Flash. Ogni modello ha prodotto prescrizioni per sei scenari clinici 20 volte in condizioni di temperatura=0, risultando in un totale di 360 output. L'analisi ha esaminato quattro aspetti: similarità semantica, riproducibilità, classificazione FITT ed espressione di sicurezza. GPT-4.1 ha guidato con un punteggio medio di similarità semantica di 0,955, seguito da Gemini 2.5 Flash a 0,950 e Claude Sonnet 4.6 a 0,903. Sono state notate differenze significative tra i modelli (H = 458,41, p < 0,001). In particolare, GPT-4.1 ha generato output completamente unici (100%), mentre Gemini 2.5 Flash ha avuto solo il 27,5% di output unici, indicando che il suo alto punteggio di similarità era dovuto a duplicazione del testo. I risultati suggeriscono che le metriche di similarità semantica potrebbero non riflettere adeguatamente le differenze nel comportamento del modello. Questa ricerca è dettagliata nella preprint arXiv 2604.19598v1 con un tipo di annuncio incrociato.
Fatti principali
- Lo studio ha confrontato la coerenza delle prescrizioni di esercizio tra tre LLM: GPT-4.1, Claude Sonnet 4.6 e Gemini 2.5 Flash
- Ogni modello ha generato prescrizioni per sei scenari clinici 20 volte in condizioni di temperatura=0
- Sono stati analizzati 360 output totali attraverso quattro dimensioni: similarità semantica, riproducibilità dell'output, classificazione FITT ed espressione di sicurezza
- GPT-4.1 ha avuto la più alta similarità semantica media (0,955), seguito da Gemini 2.5 Flash (0,950) e Claude Sonnet 4.6 (0,903)
- Differenze significative tra modelli confermate con H = 458,41, p < 0,001
- GPT-4.1 ha prodotto il 100% di output unici con contenuto semantico stabile
- Gemini 2.5 Flash ha mostrato solo il 27,5% di output unici a causa della ripetizione del testo
- Studio pubblicato come arXiv:2604.19598v1 con tipo di annuncio incrociato
Entità
Istituzioni
- arXiv