VLA Foundry Framework Unifica l'Addestramento dei Modelli Visione-Linguaggio-Azione con Rilascio Open-Source

ai-technology · 2026-04-22

VLA Foundry introduce un framework open-source che consolida l'addestramento di grandi modelli linguistici, modelli visione-linguaggio e modelli visione-linguaggio-azione all'interno di un'unica codebase. A differenza degli approcci specializzati che si concentrano esclusivamente sulle fasi di addestramento per l'azione, questo framework offre uno stack di addestramento completo con controllo end-to-end dall'iniziale pre-addestramento linguistico fino al fine-tuning specializzato per esperti d'azione. Il sistema supporta sia l'addestramento di modelli da zero che l'utilizzo di backbone pre-addestrati disponibili tramite Hugging Face. Per dimostrare le sue capacità, il framework è stato utilizzato per addestrare e rilasciare due tipologie distinte di modelli: uno addestrato completamente da zero utilizzando una pipeline LLM→VLM→VLA, e un altro costruito sul backbone pre-addestrato Qwen3-VL. Questi modelli sono stati valutati per le prestazioni di policy closed-loop utilizzando LBM Eval, un simulatore open-data e open-source. Il progetto ha inoltre contribuito a miglioramenti di usabilità sia per il simulatore che per gli strumenti di analisi STEP per facilitare una più ampia adozione pubblica. Il framework affronta il problema comune delle pipeline di pre-addestramento incompatibili negli sforzi VLA open-source esistenti fornendo un'infrastruttura unificata.

Fatti principali

VLA Foundry è un framework open-source per l'addestramento unificato di modelli
Combina l'addestramento di LLM, VLM e VLA in un'unica codebase
Il framework fornisce controllo end-to-end dal pre-addestramento al fine-tuning
Supporta sia l'addestramento da zero che l'utilizzo di backbone pre-addestrati da Hugging Face
Sono stati addestrati due tipi di modelli: uno da zero e uno utilizzando il backbone Qwen3-VL
I modelli sono stati valutati sul simulatore LBM Eval per le prestazioni di policy closed-loop
Sono stati apportati miglioramenti di usabilità al simulatore e agli strumenti di analisi STEP
Il framework affronta le pipeline di pre-addestramento incompatibili negli sforzi VLA esistenti

VLA Foundry Framework Unifica l'Addestramento dei Modelli Visione-Linguaggio-Azione con Rilascio Open-Source

Fatti principali

Entità

Istituzioni

Fonti