Il framework BalCapRL bilancia il captioning delle immagini basato su RL per MLLM
Un nuovo framework di reinforcement learning chiamato BalCapRL affronta i compromessi nel captioning delle immagini per i modelli linguistici di grandi dimensioni multimodali (MLLM). I metodi RL esistenti spesso ottimizzano metriche ristrette, portando a didascalie rumorose e allucinate che migliorano i compiti downstream ma danneggiano la fluidità, oppure a descrizioni fluide ma generiche con utilità limitata. BalCapRL ottimizza congiuntamente la correttezza sensibile all'utilità, la copertura dei riferimenti e la qualità linguistica per produrre didascalie più equilibrate. Il framework è descritto in un articolo su arXiv (2605.07394).
Fatti principali
- BalCapRL è un framework RL bilanciato per il captioning delle immagini con MLLM
- I metodi RL esistenti creano compromessi tra utilità e fluidità
- BalCapRL ottimizza correttezza, copertura e qualità linguistica
- Articolo disponibile su arXiv con ID 2605.07394
- Il captioning delle immagini è un compito fondamentale della visione artificiale
- Gli MLLM hanno attirato l'attenzione per il captioning a finale aperto
- Gli obiettivi di utilità possono causare allucinazioni e didascalie troppo lunghe
- Gli obiettivi in stile arena favoriscono descrizioni fluide ma generiche
Entità
Istituzioni
- arXiv