ARTFEED — Contemporary Art Intelligence

LLM come Ottimizzatori di Politiche per Compiti RL Sequenziali

ai-technology · 2026-06-01

Uno studio recente esplora il potenziale dei grandi modelli linguistici (LLM) per sostituire le tecniche convenzionali di apprendimento per rinforzo (RL) nell'ottimizzazione delle politiche. I ricercatori hanno sviluppato un metodo noto come Prompted Policy Optimization (PromptPO), che utilizza descrizioni basate su Python per interagire con il LLM, facilitando la generazione e il miglioramento di politiche eseguibili tramite feedback di simulazione. In esperimenti che coinvolgono scenari esplorativi complessi, compiti robotici in Meta-World e sfide di controllo nel mondo reale, PromptPO ha spesso eguagliato o superato le prestazioni dei metodi RL tradizionali, richiedendo meno interazioni con l'ambiente. Le politiche risultanti includevano approcci vari, da controllori modificati ad algoritmi di pianificazione.

Fatti principali

  • Prompted Policy Optimization (PromptPO) utilizza LLM per generare e perfezionare politiche RL
  • Il LLM viene sollecitato con descrizioni Python dello spazio degli stati, dello spazio delle azioni e della funzione di ricompensa
  • PromptPO testato su ambienti di esplorazione difficili, robotica Meta-World e problemi di controllo nel mondo reale
  • Spesso eguaglia o supera i baselines RL standard con meno interazioni ambientali
  • Le politiche vanno da controllori proporzionali ad algoritmi di iterazione del valore
  • Lo studio esplora quando i LLM possono sostituire gli algoritmi RL classici
  • Il metodo è iterativo e utilizza feedback di rollout
  • Nessuna sollecitazione esplicita per tipi di politiche specifici

Entità

Fonti