Auditing delle Tracce Controfattuali per le Competenze degli Agenti LLM

ai-technology · 2026-05-13

È stato sviluppato un nuovo framework chiamato Counterfactual Trace Auditing (CTA) per valutare come le competenze influenzano il comportamento degli agenti LLM. Le tecniche di valutazione esistenti considerano le competenze come scatole nere, indicando solo variazioni nei tassi di successo. Al contrario, il CTA associa le tracce degli agenti con e senza competenze specifiche, le divide in fasi orientate agli obiettivi, allinea queste fasi e genera annotazioni strutturate di Skill Influence Pattern (SIP). Queste annotazioni evidenziano cambiamenti comportamentali che vanno oltre i meri risultati del compito. Implementato su SWE-Skills-Bench utilizzando Claude in 49 compiti di ingegneria del software, i risultati indicano un aumento medio del tasso di successo di soli +0,3 punti percentuali, mentre il CTA scopre significativi gap di valutazione, mostrando sottili distinzioni comportamentali trascurate dai tassi di successo.

Fatti principali

Counterfactual Trace Auditing (CTA) è un nuovo framework per misurare gli effetti delle competenze sul comportamento degli agenti LLM.
I metodi di valutazione attuali trattano le competenze come scatole nere, riportando solo variazioni nei tassi di successo.
Il CTA abbina le tracce degli agenti con e senza una competenza sullo stesso compito.
Le tracce sono segmentate in fasi orientate agli obiettivi e allineate.
Il CTA emette annotazioni strutturate di Skill Influence Pattern (SIP).
Il CTA è stato implementato su SWE-Skills-Bench con Claude in 49 compiti.
Il tasso di successo varia in media solo di +0,3 punti percentuali.
Il CTA identifica un chiaro gap di valutazione che i tassi di successo non rilevano.

Auditing delle Tracce Controfattuali per le Competenze degli Agenti LLM

Fatti principali

Entità

Istituzioni

Fonti