Il Framework Ecom-RLVE Estende gli Ambienti Verificabili all'IA Conversazionale per l'E-Commerce
Il framework Ecom-RLVE modifica l'approccio RLVE per dialoghi di e-commerce multi-turno potenziati da strumenti, lanciando EcomRLVE-GYM, che include otto ambienti verificabili focalizzati su scoperta prodotti, sostituzione, creazione carrello, resi, tracciamento ordini, domande e risposte sulle politiche, pianificazione bundle e percorsi multi-intento. Ogni ambiente è dotato di generazione procedurale di problemi, un curriculum di difficoltà a 12 assi e ricompense verificabili algoritmicamente. Un modello Qwen 3 8B ha subito addestramento con DAPO per oltre 300 passi, dimostrando un'effettiva scalabilità e livelli di sfida adattivi. Questa iniziativa è emersa dal PyTorch OpenEnv Hackathon ed è ancora in sviluppo. Tutte le configurazioni e gli ambienti sono open-source, con un catalogo di 2 milioni di prodotti su Hugging Face Hub. I contributi di ricerca chiave includono RLVE (ICML 2025), DAPO e il Qwen3 Technical Report.
Fatti principali
- Ecom-RLVE estende il framework RLVE alle conversazioni multi-turno di e-commerce
- EcomRLVE-GYM fornisce otto ambienti verificabili con ricompense algoritmiche
- Addestrato il modello Qwen 3 8B con DAPO per oltre 300 passi
- Presenta un curriculum di difficoltà a 12 assi con pianificazione adattiva
- Le ricompense combinano completamento del compito, efficienza e penalità per allucinazioni
- Il progetto è nato nel PyTorch OpenEnv Hackathon
- Ambienti e configurazioni di addestramento sono open-source
- Include un simulatore utente basato su Qwen3.5 (9.7B)
Entità
Istituzioni
- Hugging Face
- PyTorch
- Meta AI
- DeepSeek-AI
- Qwen Team