Le spiegazioni basate su concetti MLLM degradano l'accuratezza nell'ICL few-shot
Un nuovo studio su arXiv (2605.28215) valuta sistematicamente la spiegabilità basata su concetti di modelli linguistici multimodali di grandi dimensioni (MLLM) congelati in condizioni di apprendimento few-shot in-context (ICL). Utilizzando cinque condizioni di crescente rigore formale, dalla classificazione di base alla generazione di assiomi di Logiche Descrittive (DL), gli autori testano quattro MLLM all'avanguardia tramite un pipeline indipendente LLM-as-a-judge. I risultati mostrano che la generazione di spiegazioni basate su concetti formalmente strutturate degrada l'accuratezza predittiva in modo monotono dal 93,8% al 90,1%, contraddicendo l'assunzione che il ragionamento esplicito aiuti universalmente le prestazioni. L'articolo sostiene che spiegare è intrinsecamente più difficile che predire da solo e che il prompting Chain-of-Thought potrebbe non riflettere il vero calcolo interno. Lo studio è stato pubblicato su arXiv con ID 2605.28215v1.
Fatti principali
- L'articolo arXiv 2605.28215v1 valuta la spiegabilità basata su concetti degli MLLM in condizioni di ICL few-shot
- Testate cinque condizioni di crescente rigore formale: dalla baseline alla generazione di assiomi di Logiche Descrittive
- Quattro MLLM all'avanguardia valutati tramite pipeline LLM-as-a-judge
- L'accuratezza predittiva è scesa dal 93,8% al 90,1% con spiegazioni formali basate su concetti
- Il prompting Chain-of-Thought potrebbe non riflettere il vero calcolo interno
- Spiegare è più difficile che predire da solo
- Lo studio contraddice l'assunzione che il ragionamento esplicito aiuti universalmente le prestazioni
- Pubblicato su arXiv con tipo di annuncio 'new'
Entità
Istituzioni
- arXiv