Quadro statistico per lo screening affidabile del rischio di autolesionismo in sistemi multi-agente LLM

ai-technology · 2026-04-27

Un nuovo quadro statistico per pipeline LLM multi-agente mira a migliorare l'affidabilità delle valutazioni del rischio di autolesionismo. Questo sistema è progettato come grafi aciclici diretti (DAG) e fornisce un processo decisionale adattivo, allontanandosi dai tradizionali metodi di voto euristici. Ogni agente è rappresentato come una decisione categorica stocastica, consentendo limiti di confidenza più precisi sulle prestazioni dell'agente. Incorpora inoltre una strategia di campionamento adattivo basata su bandit che si adatta in base alla difficoltà dell'input, insieme a garanzie di regret che dimostrano una crescita logaritmica dell'errore durante l'implementazione. Questo metodo affronta le carenze delle tipiche tecniche di valutazione come LLM-as-a-judge, che non riescono a riflettere l'affidabilità decisionale o l'accumulo di errori, cruciali in contesti di salute comportamentale sensibili alla sicurezza. Il quadro è stato testato su due dataset etichettati.

Fatti principali

Il quadro è progettato per pipeline LLM multi-agente in salute comportamentale e psichiatria.
I compiti includono la valutazione del rischio di autolesionismo e lo screening per la depressione.
La pipeline è strutturata come grafi aciclici diretti (DAG).
Fornisce un'alternativa al voto euristico con un processo decisionale adattivo e basato su principi.
Ogni agente è modellato come una decisione categorica stocastica.
Tre innovazioni: limiti di confidenza a livello di agente più stretti, campionamento adattivo basato su bandit e garanzie di regret.
Le garanzie di regret mostrano una crescita logaritmica dell'errore durante l'implementazione.
Valutato su due dataset etichettati.

Entità

—

Fonti

arXiv cs.AI — 2026-04-27