InfantAgent-Next: Agente AI Multimodale per l'Interazione Automatica con il Computer
Un nuovo agente generalista multimodale chiamato InfantAgent-Next è stato presentato dai ricercatori, con l'obiettivo di facilitare interazioni automatiche con i computer attraverso testo, immagini, audio e video. A differenza dei metodi attuali che dipendono da un unico grande modello o da una modularità limitata, questo agente impiega un'architettura altamente modulare che consente l'integrazione di agenti basati su strumenti e agenti puramente visivi. Questo design permette a diversi modelli di collaborare per affrontare compiti separati in sequenza. InfantAgent-Next ha dimostrato la sua versatilità performando sia su benchmark incentrati sulla visione come OSWorld, dove ha raggiunto un'accuratezza del 7,27%, superando Claude-Computer-Use, sia su benchmark pesanti sugli strumenti come GAIA e SWE-Bench. Gli script di valutazione e il codice sono stati resi pubblicamente disponibili.
Fatti principali
- InfantAgent-Next è un agente generalista multimodale per l'interazione automatica con il computer.
- Gestisce testo, immagini, audio e video.
- L'agente utilizza un'architettura modulare che integra agenti basati su strumenti e agenti puramente visivi.
- Diversi modelli collaborano per risolvere compiti disaccoppiati passo dopo passo.
- Valutato sui benchmark OSWorld, GAIA e SWE-Bench.
- Ha raggiunto un'accuratezza del 7,27% su OSWorld, superiore a Claude-Computer-Use.
- Codici e script di valutazione sono open-source.
Entità
—