LLM come Ottimizzatori di Politiche per Compiti RL Sequenziali

ai-technology · 2026-06-01

Uno studio recente esplora il potenziale dei grandi modelli linguistici (LLM) per sostituire le tecniche convenzionali di apprendimento per rinforzo (RL) nell'ottimizzazione delle politiche. I ricercatori hanno sviluppato un metodo noto come Prompted Policy Optimization (PromptPO), che utilizza descrizioni basate su Python per interagire con il LLM, facilitando la generazione e il miglioramento di politiche eseguibili tramite feedback di simulazione. In esperimenti che coinvolgono scenari esplorativi complessi, compiti robotici in Meta-World e sfide di controllo nel mondo reale, PromptPO ha spesso eguagliato o superato le prestazioni dei metodi RL tradizionali, richiedendo meno interazioni con l'ambiente. Le politiche risultanti includevano approcci vari, da controllori modificati ad algoritmi di pianificazione.

Fatti principali

Prompted Policy Optimization (PromptPO) utilizza LLM per generare e perfezionare politiche RL
Il LLM viene sollecitato con descrizioni Python dello spazio degli stati, dello spazio delle azioni e della funzione di ricompensa
PromptPO testato su ambienti di esplorazione difficili, robotica Meta-World e problemi di controllo nel mondo reale
Spesso eguaglia o supera i baselines RL standard con meno interazioni ambientali
Le politiche vanno da controllori proporzionali ad algoritmi di iterazione del valore
Lo studio esplora quando i LLM possono sostituire gli algoritmi RL classici
Il metodo è iterativo e utilizza feedback di rollout
Nessuna sollecitazione esplicita per tipi di politiche specifici

Entità

—

Fonti

arXiv cs.AI — 2026-06-01