Analizzate le fonti di disaccordo nella politica di sicurezza degli annotatori
Un nuovo articolo su arXiv (2605.05329) introduce un metodo per distinguere le fonti di disaccordo nell'annotazione per la politica di sicurezza dell'IA. Il disaccordo può derivare da fallimenti operativi, ambiguità delle politiche o pluralismo di valori. Chiedere direttamente agli annotatori le loro motivazioni è costoso e inaffidabile. Lo studio propone un approccio per identificare la causa principale senza aumentare il carico di annotazione.
Fatti principali
- Articolo arXiv 2605.05329
- Tipo di annuncio: nuovo
- Fonti di disaccordo: fallimenti operativi, ambiguità delle politiche, pluralismo di valori
- L'elicitazione diretta delle motivazioni è costosa e inaffidabile
- Propone un metodo per distinguere le fonti senza carico aggiuntivo di annotazione
Entità
Istituzioni
- arXiv