InterSketch: Modello di Ragionamento Visivo-Testuale Intervallato
InterSketch è un nuovo modello di IA progettato per migliorare il ragionamento visivo intervallando schizzi visivi con catene di pensiero testuali. Affronta il ragionamento superficiale e incentrato sul testo degli attuali modelli visione-linguaggio generando schizzi visivi intermedi utilizzando strumenti esterni e integrandoli con il ragionamento testuale. Il modello impiega un meccanismo di autocorrezione e una ricompensa graduale per migliorare la comprensione visiva a lungo termine. Una fase di avviamento a freddo utilizza un dataset sintetizzato di alta qualità intervallato VT-CoT con un meccanismo di riflessione. L'articolo è disponibile su arXiv con ID 2605.26520.
Fatti principali
- InterSketch è un modello di ragionamento intervallato per modelli visione-linguaggio.
- Genera schizzi visivi intermedi utilizzando strumenti esterni.
- Il modello intercala schizzi visivi con ragionamento testuale.
- Utilizza un meccanismo di autocorrezione e una ricompensa graduale.
- La fase di avviamento a freddo utilizza un dataset sintetizzato intervallato VT-CoT.
- Il dataset include un meccanismo di riflessione.
- L'articolo è su arXiv con ID 2605.26520.
- Il modello mira a migliorare la comprensione visiva a lungo termine.
Entità
Istituzioni
- arXiv