Framework MiRD per la Predizione Affidabile a Valori Insieme in QA a Risposta Aperta
MiRD è un framework a due fasi progettato per predizioni affidabili a valori insieme, affrontando le allucinazioni nel question answering a risposta aperta scomponendo la mancata copertura complessiva in due componenti: fallimento del campionamento e fallimento della selezione condizionale. Nella prima fase, stabilisce un limite marginale a livello di aspettativa sulla probabilità che un campionamento finito non produca alcuna risposta accettabile entro un budget predeterminato. La seconda fase regola una soglia di selezione conforme utilizzando punteggi di non conformità correlati all'ammissione provenienti dall'intero set di calibrazione, garantendo l'integrità del set di calibrazione. Il framework è stato testato su tre dataset di QA a risposta aperta e otto modelli, gestendo con successo il rischio di campionamento.
Fatti principali
- MiRD scompone la mancata copertura in fallimento del campionamento e fallimento della selezione condizionale.
- La Fase I fornisce un limite marginale a livello di aspettativa sulla probabilità di fallimento del campionamento.
- La Fase II calibra una soglia di selezione conforme utilizzando punteggi di non conformità correlati all'ammissione.
- Il framework preserva l'integrità del set di calibrazione utilizzando l'intero set di calibrazione.
- Testato su tre dataset di QA a risposta aperta e otto modelli.
- MiRD controlla il rischio di campionamento nella predizione a valori insieme.
- L'approccio mitiga le allucinazioni nel QA a risposta aperta.
- L'articolo è pubblicato su arXiv con ID 2605.27091.
Entità
Istituzioni
- arXiv