Strat-Reasoner: Migliorare il Ragionamento Strategico degli LLM nei Giochi Multi-Agente
Un nuovo framework chiamato Strat-Reasoner migliora il ragionamento strategico dei modelli linguistici di grandi dimensioni (LLM) nei giochi multi-agente. Gli LLM attuali faticano in tali ambienti perché i risultati dipendono da strategie congiunte e gli agenti non stazionari complicano la valutazione e l'assegnazione dei crediti. I metodi esistenti di apprendimento per rinforzo (RL) a singolo agente e le estensioni multi-agente non incorporano il ragionamento degli altri agenti. Strat-Reasoner introduce un paradigma di ragionamento ricorsivo in cui il ragionamento di un agente integra i processi di ragionamento degli altri. Utilizza una Catena di Pensiero (CoT) centralizzata per fornire segnali di ricompensa per sequenze di ragionamento intermedie. Il framework è dettagliato nell'articolo arXiv 2605.04906.
Fatti principali
- Strat-Reasoner è un framework basato su RL per LLM in giochi multi-agente.
- Affronta le sfide derivanti da agenti non stazionari e dall'assegnazione dei crediti.
- Gli approcci RL esistenti a singolo agente e multi-agente non incorporano il ragionamento degli altri agenti.
- Strat-Reasoner utilizza un paradigma di ragionamento ricorsivo che integra il ragionamento di più agenti.
- Impiega una Catena di Pensiero (CoT) centralizzata per segnali di ricompensa intermedi.
- L'articolo è disponibile su arXiv con ID 2605.04906.
Entità
Istituzioni
- arXiv