L'Apprendimento Attivo Migliora il Ranking a Coppie Basato su LLM

other · 2026-05-16

I ricercatori propongono di reinterpretare il Pairwise Ranking Prompting (PRP) per i modelli linguistici di grandi dimensioni (LLM) come una sfida di apprendimento attivo derivante da confronti a coppie rumorosi. Il PRP convenzionale si basa su algoritmi di ordinamento per compilare preferenze a coppie; tuttavia, i giudizi possono essere rumorosi, sensibili all'ordine e intransitivi, rendendo invalide le ipotesi di ordinamento. Il framework proposto presenta un oracolo a direzione randomizzata che utilizza una singola chiamata LLM per ogni coppia, trasformando il bias sistematico di posizione in rumore a media zero. Questo approccio consente un ranking aggregato imparziale senza la necessità di chiamate bidirezionali. I ranker attivi possono sostituire senza problemi i metodi esistenti, migliorando NDCG@10 per chiamata in scenari con limiti di chiamate.

Fatti principali

PRP sollecita giudizi di preferenza a coppie da un LLM
I giudizi sono rumorosi, sensibili all'ordine e talvolta intransitivi
L'ordinamento mira a recuperare una permutazione completa
Troncare l'ordinamento per rispettare un budget di chiamate non produce un top-K affidabile
I ranker attivi sono sostituti plug-in per l'ordinamento
I ranker attivi migliorano NDCG@10 per chiamata
L'oracolo a direzione randomizzata utilizza una singola chiamata LLM per coppia
L'approccio converte il bias sistematico di posizione in rumore a media zero

L'Apprendimento Attivo Migliora il Ranking a Coppie Basato su LLM

Fatti principali

Entità

Istituzioni

Fonti