Il Prompting In-Context Supera l'Orchestrazione di Agenti per Compiti Procedurali
Un nuovo studio condiviso su arXiv (2604.27891) mostra che l'uso del prompting in-context—dove l'intero processo è incluso nel prompt di sistema—supera l'orchestrazione esterna di agenti per compiti procedurali. I ricercatori hanno confrontato LangGraph, CrewAI, Google ADK e OpenAI Agents SDK con un LLM autogestito in tre categorie: prenotazione di viaggi (14 nodi), supporto Zoom (14 nodi) e gestione di richieste di risarcimento assicurative (55 nodi). Valutati da LLM-as-judge su cinque criteri di qualità, l'approccio in-context ha ottenuto punteggi tra 4,53 e 5,00, mentre LangGraph ha ottenuto punteggi tra 4,17 e 4,84. Il sistema orchestrato ha fallito nel 24% dei compiti di viaggio, nel 9% dei compiti Zoom e nel 17% dei compiti assicurativi, mentre il metodo in-context ha avuto tassi di fallimento dell'11,5%, dello 0,5% e del 5%.
Fatti principali
- Il prompting in-context supera l'orchestrazione di agenti per compiti procedurali.
- Lo studio ha confrontato LangGraph, CrewAI, Google ADK e OpenAI Agents SDK.
- Domini testati: prenotazione di viaggi (14 nodi), supporto Zoom (14 nodi), assicurazioni (55 nodi).
- Punteggi in-context: 4,53–5,00 vs LangGraph: 4,17–4,84 su scala a 5 punti.
- Tassi di fallimento del sistema orchestrato: 24% viaggi, 9% Zoom, 17% assicurazioni.
- Tassi di fallimento in-context: 11,5% viaggi, 0,5% Zoom, 5% assicurazioni.
- Ricerca pubblicata su arXiv con ID 2604.27891.
- Valutazione tramite LLM-as-judge.
Entità
Istituzioni
- arXiv
- LangGraph
- CrewAI
- Google ADK
- OpenAI Agents SDK