Indice di Cambiamento Affidabile Adattato per il Confronto tra Versioni di LLM

ai-technology · 2026-05-01

I ricercatori hanno preso l'Indice di Cambiamento Affidabile (RCI) dalla psicologia clinica e lo hanno riadattato per valutare le versioni dei modelli linguistici a livello granulare, utilizzando 2.000 item di MMLU-Pro. Hanno confrontato due versioni all'interno della stessa famiglia di modelli: Llama 3 vs 3.1, che ha mostrato un aumento di 1,6 punti, e Qwen 2.5 vs 3, con un incremento di 2,8 punti. La maggior parte degli item non ha mostrato cambiamenti significativi—79% per Llama e 72% per Qwen. Tuttavia, oltre la metà si trovava a livelli di performance estremi. Considerando gli item analizzabili, i cambiamenti sono stati misti; il 34% degli item di Llama è migliorato, mentre il 28% è peggiorato, e per Qwen, il 47% è migliorato contro il 39% che è diminuito. In particolare, Llama ha avuto difficoltà in fisica, mentre Qwen in legge. La valutazione single-shot ha perso il 42% degli item con cambiamento affidabile e ha classificato erroneamente il 25% degli item invariati.

Fatti principali

RCI adattato dalla psicologia clinica al confronto tra versioni di LLM
2.000 item di MMLU-Pro utilizzati con K=10 campioni a T=0,7
Llama 3 a 3.1: +1,6 punti di guadagno aggregato
Qwen 2.5 a 3: +2,8 punti di guadagno aggregato
Il 79% degli item non ha mostrato cambiamenti affidabili per Llama, il 72% per Qwen
Oltre la metà degli item erano a pavimento/soffitto
Tra gli item analizzabili: il 34% è migliorato, il 28% è peggiorato per Llama
Tra gli item analizzabili: il 47% è migliorato, il 39% è peggiorato per Qwen
|delta p| mediano = 0,50 per Llama, 0,90 per Qwen
Item a bassa accuratezza migliorati, item ad alta accuratezza peggiorati
Llama ha perso in fisica, Qwen ha perso in legge
Greedy single-shot ha perso il 42% degli item con cambiamento affidabile
Greedy single-shot ha falsamente segnalato il 25% degli item invariati

Indice di Cambiamento Affidabile Adattato per il Confronto tra Versioni di LLM

Fatti principali

Entità

Istituzioni

Fonti