Valley3: Modello Fondamentale Omni per l'E-commerce con Audio Multilingua

ai-technology · 2026-05-06

Valley3 è un avanzato modello linguistico multimodale di grandi dimensioni (MLLM) progettato per una varietà di applicazioni globali di e-commerce, dimostrando una capacità coesa di comprensione e ragionamento su testo, immagini, video e audio. Un aspetto distintivo è la sua funzionalità audio multilingua nativa per l'e-commerce, ottenuta adattando modelli visione-linguaggio per gestire compiti audiovisivi, specialmente in contesti di video brevi. Il modello viene sottoposto a un processo di pre-addestramento continuo omni e-commerce in quattro fasi, sviluppando gradualmente la comprensione audio, l'aderenza alle istruzioni cross-modali, l'esperienza nell'e-commerce e il ragionamento a lungo contesto. Dopo l'addestramento, Valley3 viene ulteriormente perfezionato con capacità di ragionamento a catena lunga e modalità di ragionamento regolabili, che includono una modalità non pensante e tre modalità pensanti uniche. Questa ricerca è dettagliata in arXiv:2605.01278.

Fatti principali

1. Valley3 è un modello linguistico multimodale omni per l'e-commerce.
2. Gestisce testo, immagini, video e audio.
3. Dispone di capacità audio multilingua nativa per l'e-commerce.
4. È sviluppato tramite un processo di pre-addestramento continuo omni e-commerce in quattro fasi.
5. Il post-addestramento consente il ragionamento a catena lunga con modalità controllabili.
6. Esiste una modalità non pensante e tre modalità pensanti distinte.
7. Il modello è progettato per scenari di video brevi.
8. Il lavoro è pubblicato su arXiv con ID 2605.01278.

Valley3: Modello Fondamentale Omni per l'E-commerce con Audio Multilingua

Fatti principali

Entità

Istituzioni

Fonti