Un framework di modellazione surrogata interpreta i LLM a scatola nera nelle previsioni mediche
I ricercatori propongono un framework di modellazione surrogata per interpretare come i modelli linguistici di grandi dimensioni (LLM) codificano la conoscenza, affrontando la loro natura a scatola nera. Il framework approssima lo spazio di conoscenza latente degli LLM utilizzando coppie input-output osservabili attraverso un ampio prompting in scenari simulati. Esperimenti proof-of-concept nelle previsioni mediche rivelano la misura in cui gli LLM percepiscono ciascuna variabile di input in relazione all'output, in particolare per quanto riguarda potenziali inesattezze. Lo studio è pubblicato su arXiv (2604.20331).
Fatti principali
- L'articolo arXiv 2604.20331 propone la modellazione surrogata per l'interpretabilità degli LLM.
- Il framework utilizza modelli semplificati per approssimare sistemi LLM complessi.
- Gli esperimenti si concentrano sulle previsioni mediche come proof of concept.
- Il metodo rivela come gli LLM percepiscono le variabili di input in relazione all'output.
- Affronta le preoccupazioni riguardo alla perpetuazione di inesattezze da parte degli LLM.
Entità
Istituzioni
- arXiv