Un framework di modellazione surrogata interpreta i LLM a scatola nera nelle previsioni mediche

ai-technology · 2026-04-24

I ricercatori propongono un framework di modellazione surrogata per interpretare come i modelli linguistici di grandi dimensioni (LLM) codificano la conoscenza, affrontando la loro natura a scatola nera. Il framework approssima lo spazio di conoscenza latente degli LLM utilizzando coppie input-output osservabili attraverso un ampio prompting in scenari simulati. Esperimenti proof-of-concept nelle previsioni mediche rivelano la misura in cui gli LLM percepiscono ciascuna variabile di input in relazione all'output, in particolare per quanto riguarda potenziali inesattezze. Lo studio è pubblicato su arXiv (2604.20331).

Fatti principali

L'articolo arXiv 2604.20331 propone la modellazione surrogata per l'interpretabilità degli LLM.
Il framework utilizza modelli semplificati per approssimare sistemi LLM complessi.
Gli esperimenti si concentrano sulle previsioni mediche come proof of concept.
Il metodo rivela come gli LLM percepiscono le variabili di input in relazione all'output.
Affronta le preoccupazioni riguardo alla perpetuazione di inesattezze da parte degli LLM.

Un framework di modellazione surrogata interpreta i LLM a scatola nera nelle previsioni mediche

Fatti principali

Entità

Istituzioni

Fonti