Proposto un linguaggio di pattern per agenti visivi resilienti
La ricerca introduce un linguaggio architetturale di pattern per agenti visivi che incorporano modelli di fondazione multimodali all'interno di ecosistemi aziendali. Questo lavoro affronta la difficoltà di conciliare l'elevata latenza e l'imprevedibilità dei modelli vision-language-action (VLA) con il rigido determinismo e l'efficienza in tempo reale richiesti dai cicli di controllo aziendali. Il linguaggio di pattern proposto distingue tra risposte rapide e deterministiche e una supervisione più lenta e probabilistica, presentando quattro pattern di progettazione: Integrazione Ibrida delle Affordance, Ancoraggio Visivo Adattivo, Sintesi della Gerarchia Visiva e Grafo Scenico Semantico. Lo studio è disponibile su arXiv nei campi dell'informatica e dell'intelligenza artificiale.
Fatti principali
- Lo studio propone un linguaggio architetturale di pattern per agenti visivi.
- Affronta l'integrazione di modelli di fondazione multimodali in ecosistemi aziendali.
- Bilancia la latenza e la non-determinismo dei modelli VLA con i requisiti dei cicli di controllo aziendali.
- Separa i riflessi deterministici veloci dalla supervisione probabilistica lenta.
- Quattro pattern di progettazione: Integrazione Ibrida delle Affordance, Ancoraggio Visivo Adattivo, Sintesi della Gerarchia Visiva, Grafo Scenico Semantico.
- Pubblicato su arXiv sotto Computer Science > Artificial Intelligence.
Entità
Istituzioni
- arXiv