L'Apprendimento Attivo Migliora il Ranking a Coppie Basato su LLM
I ricercatori propongono di reinterpretare il Pairwise Ranking Prompting (PRP) per i modelli linguistici di grandi dimensioni (LLM) come una sfida di apprendimento attivo derivante da confronti a coppie rumorosi. Il PRP convenzionale si basa su algoritmi di ordinamento per compilare preferenze a coppie; tuttavia, i giudizi possono essere rumorosi, sensibili all'ordine e intransitivi, rendendo invalide le ipotesi di ordinamento. Il framework proposto presenta un oracolo a direzione randomizzata che utilizza una singola chiamata LLM per ogni coppia, trasformando il bias sistematico di posizione in rumore a media zero. Questo approccio consente un ranking aggregato imparziale senza la necessità di chiamate bidirezionali. I ranker attivi possono sostituire senza problemi i metodi esistenti, migliorando NDCG@10 per chiamata in scenari con limiti di chiamate.
Fatti principali
- PRP sollecita giudizi di preferenza a coppie da un LLM
- I giudizi sono rumorosi, sensibili all'ordine e talvolta intransitivi
- L'ordinamento mira a recuperare una permutazione completa
- Troncare l'ordinamento per rispettare un budget di chiamate non produce un top-K affidabile
- I ranker attivi sono sostituti plug-in per l'ordinamento
- I ranker attivi migliorano NDCG@10 per chiamata
- L'oracolo a direzione randomizzata utilizza una singola chiamata LLM per coppia
- L'approccio converte il bias sistematico di posizione in rumore a media zero
Entità
Istituzioni
- arXiv