RegimeRouter: Un Router Binario Leggero per QA a Due Salti
Un nuovo modello teorico per il recupero di risposte a domande a due salti (two-hop QA) classifica le query in due tipi: Q-dominante, dove l'entità del secondo salto è menzionata direttamente nella domanda, e B-dominante, dove si trova solo nel passaggio ponte. Questa distinzione è supportata da tre teoremi: (T1) l'AUC per ogni query è una funzione monotona del margine di separazione del coseno (R² ≥ 0,90 per sei delle otto coppie tipo-encoder); (T2) il regime è definito da due predicati di testo superficiale (P1 è cruciale per il routing, P2 identifica il B-dominante) su tre dataset e encoder; (T3) il vantaggio del ponte dipende dalla frase che contiene la relazione, non solo dal nome dell'entità, e la sua assenza porta a un calo delle prestazioni dell'8,6–14,1 punti percentuali (p < 0,001). Per sfruttare questa teoria, gli autori introducono RegimeRouter, un semplice router binario che sceglie tra recupero basato solo sulla domanda e recupero basato su domanda più frase di relazione, utilizzando cinque caratteristiche testuali basate sulle definizioni dei predicati. Il router è addestrato su 2Wiki.
Fatti principali
- Il recupero QA a due salti si divide in regimi Q-dominante e B-dominante.
- Tre teoremi formalizzano la suddivisione dei regimi con elevata significatività statistica.
- L'AUC per query è una funzione monotona del margine di separazione del coseno (R² ≥ 0,90 per sei delle otto coppie tipo-encoder).
- Il regime è caratterizzato da due predicati di testo superficiale (P1 e P2).
- Il vantaggio del ponte richiede la frase che contiene la relazione, non solo il nome dell'entità.
- La rimozione della frase di relazione causa un calo delle prestazioni dell'8,6–14,1 pp (p < 0,001).
- RegimeRouter è un router binario leggero che utilizza cinque caratteristiche testuali.
- RegimeRouter sceglie tra recupero basato solo sulla domanda e recupero basato su domanda più frase di relazione.
Entità
Istituzioni
- arXiv