WIRE: Diagnosticare i Conflitti tra Regole Intra-Policy in Tempo Reale negli Agenti LLM
Uno studio recente ha presentato WIRE (Witnessed Intra-policy Rule Evaluation), un sistema progettato per identificare conflitti derivanti da regole intra-policy in tempo reale in agenti LLM che operano sotto politiche di prompt in linguaggio naturale a lungo termine. Questa ricerca evidenzia come regole individuali apparentemente ragionevoli possano interagire inaspettatamente, portando a conflitti. WIRE estrae regole basate su fonti, le codifica come clausole PyRule, esegue controlli di soddisfacibilità per identificare candidati a collisione dura e genera testimoni concreti di co-governance per valutare gli output del modello rispetto alle regole originali. Lo studio ha analizzato sei politiche di prompt pubbliche, estraendo 276 regole sorgente e 560 clausole atomiche, conducendo 30.944 confronti di coppie di clausole all'interno della politica, trattenendo 170 coppie candidate a collisione dura e producendo 1.402 testimoni concreti. I risultati sono stati pubblicati su arXiv con ID 2605.27784.
Fatti principali
- 1. Il pipeline WIRE diagnostica conflitti tra regole intra-policy in tempo reale negli agenti LLM.
- 2. I conflitti derivano da regole individualmente ragionevoli che interagiscono in modi non controllati.
- 3. WIRE estrae regole basate su fonti e le codifica come clausole PyRule.
- 4. I controlli di soddisfacibilità trattengono candidati a collisione dura sulla stessa superficie.
- 5. I candidati sono realizzati come testimoni concreti di co-governance.
- 6. Gli output del modello vengono giudicati rispetto al testo originale delle regole sorgente.
- 7. In sei politiche di prompt pubbliche, sono state estratte 276 regole sorgente e 560 clausole atomiche.
- 8. Sono stati classificati 30.944 confronti di coppie di clausole all'interno della politica.
- 9. Sono state trattenute 170 coppie di regole sorgente candidate a collisione dura codificate.
- 10. Sono stati realizzati 1.402 testimoni concreti.
- 11. Pubblicato su arXiv con ID 2605.27784.
Entità
Istituzioni
- arXiv