Indice di Cambiamento Affidabile Adattato per il Confronto tra Versioni di LLM
I ricercatori hanno preso l'Indice di Cambiamento Affidabile (RCI) dalla psicologia clinica e lo hanno riadattato per valutare le versioni dei modelli linguistici a livello granulare, utilizzando 2.000 item di MMLU-Pro. Hanno confrontato due versioni all'interno della stessa famiglia di modelli: Llama 3 vs 3.1, che ha mostrato un aumento di 1,6 punti, e Qwen 2.5 vs 3, con un incremento di 2,8 punti. La maggior parte degli item non ha mostrato cambiamenti significativi—79% per Llama e 72% per Qwen. Tuttavia, oltre la metà si trovava a livelli di performance estremi. Considerando gli item analizzabili, i cambiamenti sono stati misti; il 34% degli item di Llama è migliorato, mentre il 28% è peggiorato, e per Qwen, il 47% è migliorato contro il 39% che è diminuito. In particolare, Llama ha avuto difficoltà in fisica, mentre Qwen in legge. La valutazione single-shot ha perso il 42% degli item con cambiamento affidabile e ha classificato erroneamente il 25% degli item invariati.
Fatti principali
- RCI adattato dalla psicologia clinica al confronto tra versioni di LLM
- 2.000 item di MMLU-Pro utilizzati con K=10 campioni a T=0,7
- Llama 3 a 3.1: +1,6 punti di guadagno aggregato
- Qwen 2.5 a 3: +2,8 punti di guadagno aggregato
- Il 79% degli item non ha mostrato cambiamenti affidabili per Llama, il 72% per Qwen
- Oltre la metà degli item erano a pavimento/soffitto
- Tra gli item analizzabili: il 34% è migliorato, il 28% è peggiorato per Llama
- Tra gli item analizzabili: il 47% è migliorato, il 39% è peggiorato per Qwen
- |delta p| mediano = 0,50 per Llama, 0,90 per Qwen
- Item a bassa accuratezza migliorati, item ad alta accuratezza peggiorati
- Llama ha perso in fisica, Qwen ha perso in legge
- Greedy single-shot ha perso il 42% degli item con cambiamento affidabile
- Greedy single-shot ha falsamente segnalato il 25% degli item invariati
Entità
Istituzioni
- arXiv