Il Paradosso della Complessità degli LLM Agent: Linee Guida Rigide Danneggiano i Modelli Chat di Frontiera

ai-technology · 2026-05-27

Un nuovo studio da arXiv (2605.26731) mette in discussione l'assunto che strutture più rigide migliorino universalmente l'affidabilità degli LLM agent e che modelli con capacità superiori necessitino di meno guida. In un esperimento con 432 esecuzioni su sei modelli e quattro livelli di capacità utilizzando il benchmark HEAT-24, i ricercatori hanno scoperto una relazione non monotona. Per Gemini 2.5 Flash, l'aumento della verbosità delle linee guida ha ridotto il VTSR di 29-38 punti percentuali, rivelando un paradosso di complessità delle linee guida. Per Qwen3.5-122B con pensiero esteso, linee guida rigide hanno raggiunto il VTSR più alto, pari al 91,7%.

Fatti principali

Articolo arXiv 2605.26731
Esperimento con 432 esecuzioni
Sei modelli su quattro livelli di capacità
Tre condizioni di linee guida: leggere, bilanciate, rigide
Benchmark HEAT-24 con 24 compiti
Calo del VTSR di Gemini 2.5 Flash di 29-38 punti percentuali con l'aumento della verbosità delle linee guida
VTSR di Qwen3.5-122B con linee guida rigide: 91,7%
Relazione inversa monotona confutata

Il Paradosso della Complessità degli LLM Agent: Linee Guida Rigide Danneggiano i Modelli Chat di Frontiera

Fatti principali

Entità

Istituzioni

Fonti