Il Paradosso della Complessità degli LLM Agent: Linee Guida Rigide Danneggiano i Modelli Chat di Frontiera
Un nuovo studio da arXiv (2605.26731) mette in discussione l'assunto che strutture più rigide migliorino universalmente l'affidabilità degli LLM agent e che modelli con capacità superiori necessitino di meno guida. In un esperimento con 432 esecuzioni su sei modelli e quattro livelli di capacità utilizzando il benchmark HEAT-24, i ricercatori hanno scoperto una relazione non monotona. Per Gemini 2.5 Flash, l'aumento della verbosità delle linee guida ha ridotto il VTSR di 29-38 punti percentuali, rivelando un paradosso di complessità delle linee guida. Per Qwen3.5-122B con pensiero esteso, linee guida rigide hanno raggiunto il VTSR più alto, pari al 91,7%.
Fatti principali
- Articolo arXiv 2605.26731
- Esperimento con 432 esecuzioni
- Sei modelli su quattro livelli di capacità
- Tre condizioni di linee guida: leggere, bilanciate, rigide
- Benchmark HEAT-24 con 24 compiti
- Calo del VTSR di Gemini 2.5 Flash di 29-38 punti percentuali con l'aumento della verbosità delle linee guida
- VTSR di Qwen3.5-122B con linee guida rigide: 91,7%
- Relazione inversa monotona confutata
Entità
Istituzioni
- arXiv