Nuovo metodo rileva le allucinazioni degli LLM tramite test multipli
Un nuovo approccio per rilevare le allucinazioni nei modelli linguistici di grandi dimensioni (LLM) inquadra il problema come un test di ipotesi, tracciando parallelismi con il rilevamento fuori distribuzione. Il metodo, descritto in un preprint su arXiv (2508.18473), utilizza p-value conformali per aggregare più punteggi di valutazione, consentendo un rilevamento calibrato con tassi di falsi allarmi controllati. Esperimenti approfonditi su diversi modelli e dataset ne dimostrano l'efficacia. Il lavoro affronta la sfida che i rilevatori di allucinazioni esistenti variano in prestazioni e mancano di affidabilità, offrendo un quadro statistico basato su principi per un rilevamento affidabile.
Fatti principali
- Il metodo formula il rilevamento delle allucinazioni come un problema di test di ipotesi.
- Traccia parallelismi con il rilevamento fuori distribuzione nell'apprendimento automatico.
- L'approccio utilizza un'aggregazione ispirata ai test multipli tramite p-value conformali.
- Consente un rilevamento calibrato con tasso di falsi allarmi controllato.
- Sono stati condotti esperimenti approfonditi su diversi modelli e dataset.
- Il preprint è disponibile su arXiv con ID 2508.18473.
- Gli LLM tendono a generare risposte sicure ma errate o prive di senso.
- I rilevatori di allucinazioni esistenti mancano di affidabilità e coerenza.
Entità
Istituzioni
- arXiv