BET: Un Quadro di Pensiero Efficiente dal Punto di Vista del Budget per il Ragionamento Adattivo nei LRM
I ricercatori propongono Budget-Efficient Thinking (BET), un quadro a due fasi per ottimizzare il calcolo a tempo di test nei modelli di ragionamento di grandi dimensioni (LRM). BET affronta la cattiva allocazione dei budget computazionali considerando la risolvibilità, non solo la difficoltà percepita. Combina un avvio a freddo comportamentale con GRPO sotto una ricompensa sensibile ai costi di investimento, apprendendo tre comportamenti: soluzione breve, soluzione lunga e abbandono. L'approccio mira a ridurre i costi mantenendo l'accuratezza sulle query risolvibili.
Fatti principali
- 1. I modelli di ragionamento di grandi dimensioni (LRM) spesso allocano male il calcolo a tempo di test.
- 2. I metodi di efficienza esistenti trascurano la risolvibilità.
- 3. BET formula il ragionamento adattivo come investimento computazionale in condizioni di incertezza.
- 4. BET utilizza un quadro a due fasi: avvio a freddo comportamentale e GRPO.
- 5. La ricompensa è sensibile ai costi di investimento.
- 6. BET apprende tre comportamenti: soluzione breve, soluzione lunga e abbandono.
- 7. L'obiettivo è ridurre i costi senza sacrificare l'accuratezza sulle query risolvibili.
- 8. Il documento è arXiv:2605.11625v1.
Entità
Istituzioni
- arXiv