BUILD-AND-FIND: Nuovo protocollo misura la chiarezza del codebase per agenti a valle
I ricercatori hanno presentato BUILD-AND-FIND, un nuovo protocollo volto a valutare se gli agenti di codifica a valle possono recuperare accuratamente le decisioni progettuali intese dai repository generati. Questo protocollo risponde alla crescente diffusione dell'ingegneria a livello di repository guidata da agenti, dove un agente crea un repository che agenti successivi possono esaminare, verificare o migliorare. In questo contesto, un repository generato funge sia da soluzione a un compito sia da strumento di comunicazione per iniziative future. Anche se gli agenti raggiungono obiettivi comportamentali osservabili, la chiarezza con cui i repository rivelano i comportamenti e le scelte progettuali intesi può variare. BUILD-AND-FIND valuta sia la precisione del recupero a valle sia lo sforzo necessario per l'ispezione. In questo protocollo, un costruttore crea un codebase a partire da una specifica di repository nascosta, mentre un cercatore ha accesso solo al codebase e a un insieme di domande a scelta multipla tracciate dalla specifica. Questo metodo è stato dettagliato in un articolo su arXiv (2605.06136) ed è destinato alla valutazione di codebase gestiti da agenti.
Fatti principali
- BUILD-AND-FIND è un protocollo per valutare codebase gestiti da agenti.
- Misura la capacità degli agenti a valle di recuperare le decisioni progettuali intese.
- Il protocollo valuta sia l'accuratezza sia lo sforzo di ispezione.
- Un costruttore crea un codebase da una specifica nascosta.
- Un cercatore utilizza il codebase e un insieme di domande per recuperare le scelte.
- L'approccio affronta l'ingegneria a livello di repository da parte di più agenti.
- I repository sono visti come artefatti di comunicazione per lavori futuri.
- L'articolo è disponibile su arXiv (2605.06136).
Entità
Istituzioni
- arXiv