Scaffolding di Agenti LLM: Più Componenti Possono Danneggiare le Prestazioni
Un nuovo studio su arXiv (2605.05716) rivela che l'aggiunta di più componenti di scaffolding ai sistemi di agenti LLM può degradare le prestazioni a causa dell'interferenza tra componenti (CCI). I ricercatori hanno condotto un esperimento fattoriale completo su tutti i 32 sottoinsiemi di cinque componenti (pianificazione, strumenti, memoria, autoriflessione, recupero) su HotpotQA e GSM8K utilizzando Llama-3.1-8B/70B, per un totale di 96 condizioni con fino a 10 seed. Il sistema All-In, che utilizza tutti e cinque i componenti, è risultato costantemente subottimale. Su HotpotQA, un agente con un solo strumento ha superato All-In del 32% (F1 0,233 vs 0,177, p=0,023). Su GSM8K, un sottoinsieme a 3 componenti ha battuto All-In del 79% (0,43 vs 0,24, p=0,010). Il numero ottimale di componenti dipende dal compito (k*=1-4) ed è sensibile alla scala: a 70B, alcune combinazioni che danneggiavano a 8B hanno fornito guadagni, ma All-In era ancora in ritardo rispetto al miglior sottoinsieme. Una regressione degli effetti principali ha raggiunto R²=0,916 (R²-adj=0,899, LOOCV=0,872). I valori esatti di Shapley hanno rivelato 183/325 violazioni di submodularità (56,3%), indicando che la selezione greedy è inaffidabile.
Fatti principali
- L'interferenza tra componenti (CCI) degrada le prestazioni degli agenti LLM quando i componenti interagiscono in modo distruttivo.
- Esperimento fattoriale completo su 2^5=32 sottoinsiemi di cinque componenti su HotpotQA e GSM8K.
- Utilizzo di Llama-3.1-8B/70B con 96 condizioni e fino a 10 seed.
- Il sistema All-In (tutti e cinque i componenti) è risultato costantemente subottimale.
- Su HotpotQA, un agente con un solo strumento ha superato All-In del 32% (F1 0,233 vs 0,177, p=0,023).
- Su GSM8K, un sottoinsieme a 3 componenti ha battuto All-In del 79% (0,43 vs 0,24, p=0,010).
- Il numero ottimale di componenti dipende dal compito (k*=1-4) ed è sensibile alla scala.
- A 70B, alcune combinazioni che danneggiavano a 8B hanno fornito guadagni, ma All-In era ancora in ritardo rispetto al miglior sottoinsieme.
- Regressione degli effetti principali: R²=0,916, R²-adj=0,899, LOOCV=0,872.
- Valori esatti di Shapley: 183/325 violazioni di submodularità (56,3%), mostrando che la selezione greedy è inaffidabile.
Entità
Istituzioni
- arXiv