Metrica Bits-over-Random ottimizza la selezione degli strumenti LLM
Una nuova metrica, Bits-over-Random (BoR), valuta il numero ottimale di strumenti mostrati a un agente LLM durante il recupero. Le dimensioni fisse delle shortlist spesso falliscono: troppi strumenti confondono il modello, troppo pochi omettono quello corretto. BoR misura se il successo a una data profondità supera la casualità. Testata su tre benchmark con registri da 20 a 3.251 strumenti, BoR funge anche da ricompensa per l'apprendimento per rinforzo per la selezione della profondità per query. L'agente RL è deliberatamente semplice per sondare l'efficacia della metrica.
Fatti principali
- BoR è una metrica corretta per la casualità per la profondità della shortlist degli strumenti.
- Le dimensioni fisse delle shortlist sono subottimali per il recupero degli strumenti LLM.
- BoR confronta il successo a una data profondità con la selezione casuale.
- Valutata su tre benchmark di selezione degli strumenti.
- I registri degli strumenti vanno da 20 a 3.251 strumenti.
- BoR è usata come ricompensa per l'apprendimento per rinforzo.
- L'agente RL è deliberatamente semplice.
- L'approccio tratta il numero di strumenti come oggetto di valutazione.
Entità
Istituzioni
- arXiv