Valley3: Modello Fondamentale Omni per l'E-commerce con Audio Multilingua
Valley3 è un avanzato modello linguistico multimodale di grandi dimensioni (MLLM) progettato per una varietà di applicazioni globali di e-commerce, dimostrando una capacità coesa di comprensione e ragionamento su testo, immagini, video e audio. Un aspetto distintivo è la sua funzionalità audio multilingua nativa per l'e-commerce, ottenuta adattando modelli visione-linguaggio per gestire compiti audiovisivi, specialmente in contesti di video brevi. Il modello viene sottoposto a un processo di pre-addestramento continuo omni e-commerce in quattro fasi, sviluppando gradualmente la comprensione audio, l'aderenza alle istruzioni cross-modali, l'esperienza nell'e-commerce e il ragionamento a lungo contesto. Dopo l'addestramento, Valley3 viene ulteriormente perfezionato con capacità di ragionamento a catena lunga e modalità di ragionamento regolabili, che includono una modalità non pensante e tre modalità pensanti uniche. Questa ricerca è dettagliata in arXiv:2605.01278.
Fatti principali
- 1. Valley3 è un modello linguistico multimodale omni per l'e-commerce.
- 2. Gestisce testo, immagini, video e audio.
- 3. Dispone di capacità audio multilingua nativa per l'e-commerce.
- 4. È sviluppato tramite un processo di pre-addestramento continuo omni e-commerce in quattro fasi.
- 5. Il post-addestramento consente il ragionamento a catena lunga con modalità controllabili.
- 6. Esiste una modalità non pensante e tre modalità pensanti distinte.
- 7. Il modello è progettato per scenari di video brevi.
- 8. Il lavoro è pubblicato su arXiv con ID 2605.01278.
Entità
Istituzioni
- arXiv