ARTFEED — Contemporary Art Intelligence

HyperEyes: Agente di Ricerca Multimodale Parallelo con Addestramento Sensibile all'Efficienza

ai-technology · 2026-05-11

HyperEyes è stato presentato dai ricercatori come un agente di ricerca multimodale parallelo in grado di gestire più entità contemporaneamente in una singola interazione, a differenza degli agenti sequenziali tradizionali che affrontano una entità per chiamata strumentale. Questo sistema innovativo integra il grounding visivo e il recupero in un'azione unificata, dando priorità all'efficienza inferenziale nell'addestramento. L'addestramento avviene in due fasi: inizialmente, una Pipeline di Sintesi Dati Parallel-Amenable produce dati di supervisione cold-start per query multi-entità visive e multi-vincolo testuali, utilizzando percorsi guidati dall'efficienza attraverso il Progressive Rejection Sampling. Una caratteristica chiave è il meccanismo Dual-Grained, che migliora sia l'efficienza a grana fine che a grana grossa. Questa ricerca è documentata in arXiv:2605.07177.

Fatti principali

  • HyperEyes è un agente di ricerca multimodale parallelo.
  • Elabora più entità contemporaneamente in un unico round.
  • Fonde il grounding visivo e il recupero in un'unica azione atomica.
  • L'efficienza inferenziale è un obiettivo di addestramento di primaria importanza.
  • L'addestramento utilizza una Pipeline di Sintesi Dati Parallel-Amenable.
  • Il Progressive Rejection Sampling cura traiettorie orientate all'efficienza.
  • Il contributo centrale è un meccanismo Dual-Grained.
  • Pubblicato come arXiv:2605.07177.

Entità

Istituzioni

  • arXiv

Fonti