ARTFEED — Contemporary Art Intelligence

Le prestazioni degli agenti LLM dipendono più dall'harness che dal modello, sostiene un articolo

ai-technology · 2026-05-26

Un recente position paper pubblicato su arXiv (2605.23950) sostiene che, per compiti a lungo termine valutati utilizzando modelli di capacità avanzata, l'harness di esecuzione dell'agente—responsabile della creazione del contesto, dell'interazione con gli strumenti, dell'orchestrazione e della verifica—spesso gioca un ruolo più cruciale nel determinare le prestazioni rispetto al modello linguistico stesso. Gli autori introducono la Tesi del Vincolo Vincolante, affermando che in questo contesto, le variazioni delle prestazioni sono influenzate più dalla configurazione dell'harness che dalla scelta del modello, con i metodi di valutazione esistenti che attribuiscono erroneamente i miglioramenti a livello di harness a miglioramenti del modello. Questa tesi è supportata da un quadro teorico di controllo che vede l'harness come il controllore all'interno di un sistema dinamico a ciclo chiuso, con l'LLM che agisce come la politica stocastica che regola, chiarendo perché piccole regolazioni all'harness possono portare a cambiamenti di prestazione maggiori rispetto alla sostituzione del modello.

Fatti principali

  • L'articolo arXiv:2605.23950 sostiene che l'harness è un determinante più forte delle prestazioni dell'agente rispetto al modello per compiti a lungo termine.
  • Tesi del Vincolo Vincolante: la varianza delle prestazioni è guidata più dalla configurazione dell'harness che dalla scelta del modello.
  • Gli attuali protocolli di valutazione attribuiscono erroneamente i guadagni a livello di harness a miglioramenti del modello.
  • La formalizzazione della teoria del controllo tratta l'harness come controllore e l'LLM come politica stocastica.
  • Piccole modifiche all'harness possono produrre cambiamenti di prestazione superiori alla sostituzione del modello.
  • L'articolo è un position paper, non uno studio empirico.
  • Si concentra su modelli di capacità avanzata e compiti a lungo termine.
  • L'harness include costruzione del contesto, interazione con gli strumenti, orchestrazione, verifica.

Entità

Istituzioni

  • arXiv

Fonti