Politica di Campo Derivatante: IA Generativa in un Solo Passo per la Robotica

ai-technology · 2026-05-11

Un nuovo approccio chiamato Politica di Campo Derivatante (DFP) è stato introdotto dai ricercatori come una politica generativa in un solo passo non basata su ODE per la manipolazione robotica. Questo metodo concettualizza gli aggiornamenti della politica come un flusso gradiente di Wasserstein-2 con divergenza KL inversa che porta a una politica target soft. Si scompone in due componenti: salire verso regioni con valori di azione più alti e abbinamento dei punteggi con una politica di riferimento. Una perdita surrogata gestibile, simile al behavior cloning, è formulata sulla base delle prime K azioni selezionate dai critici. DFP dimostra prestazioni superiori nei compiti di manipolazione in Robomimic e OGBench, superando i risultati delle politiche basate su ODE.

Fatti principali

DFP è una politica generativa in un solo passo non basata su ODE.
L'aggiornamento della politica è un flusso gradiente di Wasserstein-2 con divergenza KL inversa.
Il gradiente si scompone in salita verso regioni con valori di azione più alti e abbinamento dei punteggi.
La perdita surrogata è simile al behavior cloning sulle prime K azioni selezionate dal critico.
DFP raggiunge lo stato dell'arte su Robomimic e OGBench.
Supera le politiche basate su ODE.
Inferenza in un solo passo.
Costruito sul paradigma del modello derivante.

Politica di Campo Derivatante: IA Generativa in un Solo Passo per la Robotica

Fatti principali

Entità

Istituzioni

Fonti