Il Framework Deliberative Searcher Migliora l'Affidabilità degli LLM Attraverso il Reinforcement Learning
Un nuovo framework di intelligenza artificiale chiamato Deliberative Searcher è stato introdotto per migliorare l'affidabilità dei grandi modelli linguistici. Questo metodo combina la calibrazione della certezza con la ricerca basata sul retrieval, progettata per il question answering in domini aperti. Utilizzando dati di Wikipedia, il sistema si impegna in riflessioni e verifiche a più fasi. L'addestramento viene condotto utilizzando un algoritmo di reinforcement learning focalizzato sul raggiungimento dell'accuratezza rispettando vincoli di affidabilità soft. I risultati empirici indicano una migliore corrispondenza tra la fiducia del modello e la sua correttezza, producendo output più affidabili. Questo framework rappresenta la prima volta in cui la calibrazione della certezza viene integrata con la ricerca basata sul retrieval per questo scopo. Il documento di ricerca riceverà aggiornamenti continui, affrontando questioni significative di affidabilità per l'uso pratico degli LLM.
Fatti principali
- Deliberative Searcher è un framework per migliorare l'affidabilità degli LLM
- Integra la calibrazione della certezza con la ricerca basata sul retrieval
- Progettato per applicazioni di question answering in domini aperti
- Utilizza riflessioni e verifiche a più fasi su dati di Wikipedia
- Addestrato con un algoritmo di reinforcement learning
- Ottimizza per l'accuratezza sotto vincoli di affidabilità soft
- Migliora l'allineamento tra la fiducia del modello e la sua correttezza
- Il documento sarà aggiornato continuamente
Entità
Istituzioni
- arXiv