ARTFEED — Contemporary Art Intelligence

Il Paradosso della Complessità degli LLM Agent: Linee Guida Rigide Danneggiano i Modelli Chat di Frontiera

ai-technology · 2026-05-27

Un nuovo studio da arXiv (2605.26731) mette in discussione l'assunto che strutture più rigide migliorino universalmente l'affidabilità degli LLM agent e che modelli con capacità superiori necessitino di meno guida. In un esperimento con 432 esecuzioni su sei modelli e quattro livelli di capacità utilizzando il benchmark HEAT-24, i ricercatori hanno scoperto una relazione non monotona. Per Gemini 2.5 Flash, l'aumento della verbosità delle linee guida ha ridotto il VTSR di 29-38 punti percentuali, rivelando un paradosso di complessità delle linee guida. Per Qwen3.5-122B con pensiero esteso, linee guida rigide hanno raggiunto il VTSR più alto, pari al 91,7%.

Fatti principali

  • Articolo arXiv 2605.26731
  • Esperimento con 432 esecuzioni
  • Sei modelli su quattro livelli di capacità
  • Tre condizioni di linee guida: leggere, bilanciate, rigide
  • Benchmark HEAT-24 con 24 compiti
  • Calo del VTSR di Gemini 2.5 Flash di 29-38 punti percentuali con l'aumento della verbosità delle linee guida
  • VTSR di Qwen3.5-122B con linee guida rigide: 91,7%
  • Relazione inversa monotona confutata

Entità

Istituzioni

  • arXiv

Fonti