ARTFEED — Contemporary Art Intelligence

InfoTree: Un Framework Submodulare per l'Apprendimento per Rinforzo di Agenti che Utilizzano Strumenti con Budget Fisso

other · 2026-05-09

Uno studio recente disponibile su arXiv introduce il Rollout Informativeness under a Fixed Budget (RIFB), volto a migliorare l'apprendimento per rinforzo per agenti che utilizzano strumenti. I ricercatori hanno osservato che i campionatori operanti in modo indipendente, senza riconoscere i vincoli di budget, tendevano a mostrare un tasso di collasso maggiore di zero con prompt difficili. Reinterpretando la selezione degli stati intermedi come un problema di massimizzazione submodulare monotona, hanno fornito un metodo che raggiunge una garanzia di approssimazione di 1 - 1/e attraverso una strategia greedy. Inoltre, il framework InfoTree integra termini di Upper Confidence Bound con consapevolezza dell'incertezza (UUCB) con un Allocatore di Budget Adattivo (ABA) per migliorare l'ottimizzazione dei prompt sotto budget specifici.

Fatti principali

  • Articolo pubblicato su arXiv con ID 2605.05262
  • Formalizza il Rollout Informativeness under a Fixed Budget (RIFB)
  • Dimostra che i campionatori indipendenti senza budget collassano per prompt difficili
  • Riformula la selezione degli stati come massimizzazione submodulare monotona
  • Il selettore greedy raggiunge una garanzia di approssimazione di 1 - 1/e
  • I termini UUCB derivati come guadagni marginali in forma chiusa
  • Il framework InfoTree include UUCB, ABA e Speculative Expansion
  • Il bonus di entropia a livello di token è una conseguenza analitica

Entità

Istituzioni

  • arXiv

Fonti