La ricerca esplora l'addestramento alla negoziazione dei LLM attraverso l'apprendimento per rinforzo con ricompense verificabili
Uno studio recente esamina il potenziale del Reinforcement Learning from Verifiable Rewards (RLVR) nell'addestrare i Large Language Models a partecipare a giochi strategici con informazioni incomplete, come le negoziazioni bilaterali sui prezzi. La ricerca presenta un framework in cui un agente acquirente di medie dimensioni compete contro un venditore LLM regolamentato attraverso una vasta gamma di prodotti reali. Ancorando i segnali di ricompensa alla massimizzazione del surplus economico e rispettando rigorosi limiti di budget privati, lo studio scopre un'evoluzione strategica unica in quattro fasi. L'agente evolve dalla contrattazione di base all'utilizzo di prezzi iniziali aggressivi, incontra una fase di stallo e infine affina tecniche persuasive avanzate. Questa ricerca approfondisce i comportamenti strategici che emergono durante l'apprendimento, evidenziando le sfide che i LLM affrontano nella negoziazione nonostante le loro capacità come agenti interattivi autonomi. Il documento è disponibile su arXiv:2604.09855v1.
Fatti principali
- Il documento indaga il Reinforcement Learning from Verifiable Rewards (RLVR) per insegnare ai LLM a negoziare
- La ricerca si concentra sulla negoziazione bilaterale dei prezzi come gioco strategico con informazioni incomplete
- Un framework addestra un agente acquirente di medie dimensioni contro un venditore LLM regolamentato
- L'addestramento avviene attraverso un'ampia distribuzione di prodotti reali
- I segnali di ricompensa sono basati sulla massimizzazione del surplus economico e sul rispetto dei vincoli di budget
- Lo studio rivela un'evoluzione strategica in quattro fasi nel comportamento negoziale
- L'agente progredisce dalla contrattazione ingenua a competenze persuasive sofisticate
- Il documento è disponibile come arXiv:2604.09855v1
Entità
—