L'aggiornamento dell'harness degli agenti LLM non predice i miglioramenti delle prestazioni

ai-technology · 2026-06-01

Un nuovo preprint su arXiv (2605.30621) indaga se la capacità di base di un modello linguistico di risolvere compiti predica la sua capacità di auto-evolversi tramite aggiornamenti dell'harness. Lo studio distingue due capacità: aggiornamento dell'harness (produrre aggiornamenti utili dalle evidenze di esecuzione) e beneficio dell'harness (trarre vantaggio da tali aggiornamenti durante la risoluzione dei compiti). Sorprendentemente, l'aggiornamento dell'harness è piatto tra i livelli di capacità del modello: modelli di diversa potenza producono aggiornamenti che portano a guadagni simili. I risultati suggeriscono che la capacità di generare aggiornamenti efficaci dell'harness non correla con le prestazioni di base e che trarre vantaggio dagli aggiornamenti è una capacità separata. L'articolo mette in discussione le ipotesi sugli agenti LLM auto-evolventi e sottolinea la necessità di distinguere le capacità di evoluzione.

Fatti principali

arXiv:2605.30621
Gli agenti LLM utilizzano harness esterni modificabili (prompt, competenze, memorie, strumenti)
L'auto-evoluzione dell'harness adatta gli agenti aggiornando gli harness dalle evidenze di esecuzione
Due capacità analizzate: aggiornamento dell'harness e beneficio dell'harness
L'aggiornamento dell'harness è piatto in termini di capacità di base tra i livelli di modello
Modelli di diversi livelli di capacità producono aggiornamenti dell'harness con guadagni simili
Trarre vantaggio dagli aggiornamenti è una capacità separata dal produrre aggiornamenti

L'aggiornamento dell'harness degli agenti LLM non predice i miglioramenti delle prestazioni

Fatti principali

Entità

Istituzioni

Fonti