ECPO: Ottimizzazione della Politica Accoppiata all'Evidenza per la Classifica dei Candidati Certificata dall'Evidenza
Un nuovo studio su arXiv (2605.21993) introduce un concetto innovativo chiamato Evidence-Coupled Policy Optimization (ECPO), volto a classificare i candidati attraverso l'evidenza. Questa tecnica produce una lista Top-K che include certificati di evidenza doc_id:span, che supportano efficacemente il processo decisionale. Viene utilizzata sui dataset MAVEN-ERE e RAMS, incorporando estrazione upstream di insiemi, identificatori casuali di candidati all'interno di finestre, supervisione della traiettoria allineata agli scheletri, hard negatives e riferimenti di audit. L'obiettivo di ECPO è stabilire una chiara ricompensa di traiettoria tenendo conto di elementi come l'allineamento dello scheletro e la coerenza degli argomenti.
Fatti principali
- ID del paper: arXiv:2605.21993
- Pubblicato su arXiv
- Introduce ECPO: Evidence-Coupled Policy Optimization
- Compito: classifica dei candidati certificata dall'evidenza
- Produce una lista Top-K con certificati di evidenza
- Implementato sui dataset MAVEN-ERE e RAMS
- Utilizza supervisione della traiettoria allineata allo scheletro
- Include hard negatives e riferimenti di audit
Entità
Istituzioni
- arXiv
- MAVEN-ERE
- RAMS