ARTFEED — Contemporary Art Intelligence

Valley3: Modello Fondamentale Omni per l'E-commerce con Audio Multilingua

ai-technology · 2026-05-06

Valley3 è un avanzato modello linguistico multimodale di grandi dimensioni (MLLM) progettato per una varietà di applicazioni globali di e-commerce, dimostrando una capacità coesa di comprensione e ragionamento su testo, immagini, video e audio. Un aspetto distintivo è la sua funzionalità audio multilingua nativa per l'e-commerce, ottenuta adattando modelli visione-linguaggio per gestire compiti audiovisivi, specialmente in contesti di video brevi. Il modello viene sottoposto a un processo di pre-addestramento continuo omni e-commerce in quattro fasi, sviluppando gradualmente la comprensione audio, l'aderenza alle istruzioni cross-modali, l'esperienza nell'e-commerce e il ragionamento a lungo contesto. Dopo l'addestramento, Valley3 viene ulteriormente perfezionato con capacità di ragionamento a catena lunga e modalità di ragionamento regolabili, che includono una modalità non pensante e tre modalità pensanti uniche. Questa ricerca è dettagliata in arXiv:2605.01278.

Fatti principali

  • 1. Valley3 è un modello linguistico multimodale omni per l'e-commerce.
  • 2. Gestisce testo, immagini, video e audio.
  • 3. Dispone di capacità audio multilingua nativa per l'e-commerce.
  • 4. È sviluppato tramite un processo di pre-addestramento continuo omni e-commerce in quattro fasi.
  • 5. Il post-addestramento consente il ragionamento a catena lunga con modalità controllabili.
  • 6. Esiste una modalità non pensante e tre modalità pensanti distinte.
  • 7. Il modello è progettato per scenari di video brevi.
  • 8. Il lavoro è pubblicato su arXiv con ID 2605.01278.

Entità

Istituzioni

  • arXiv

Fonti