InfantAgent-Next: Agente AI Multimodale per l'Interazione Automatica con il Computer

ai-technology · 2026-05-04

Un nuovo agente generalista multimodale chiamato InfantAgent-Next è stato presentato dai ricercatori, con l'obiettivo di facilitare interazioni automatiche con i computer attraverso testo, immagini, audio e video. A differenza dei metodi attuali che dipendono da un unico grande modello o da una modularità limitata, questo agente impiega un'architettura altamente modulare che consente l'integrazione di agenti basati su strumenti e agenti puramente visivi. Questo design permette a diversi modelli di collaborare per affrontare compiti separati in sequenza. InfantAgent-Next ha dimostrato la sua versatilità performando sia su benchmark incentrati sulla visione come OSWorld, dove ha raggiunto un'accuratezza del 7,27%, superando Claude-Computer-Use, sia su benchmark pesanti sugli strumenti come GAIA e SWE-Bench. Gli script di valutazione e il codice sono stati resi pubblicamente disponibili.

Fatti principali

InfantAgent-Next è un agente generalista multimodale per l'interazione automatica con il computer.
Gestisce testo, immagini, audio e video.
L'agente utilizza un'architettura modulare che integra agenti basati su strumenti e agenti puramente visivi.
Diversi modelli collaborano per risolvere compiti disaccoppiati passo dopo passo.
Valutato sui benchmark OSWorld, GAIA e SWE-Bench.
Ha raggiunto un'accuratezza del 7,27% su OSWorld, superiore a Claude-Computer-Use.
Codici e script di valutazione sono open-source.

Entità

—

Fonti

arXiv cs.AI — 2026-05-04