Apprendimento semi-supervisionato guidato da LLM per la classificazione di tweet di crisi
Uno studio recente pubblicato su arXiv segna la prima valutazione empirica dell'apprendimento semi-supervisionato per la classificazione di tweet relativi a crisi, utilizzando modelli linguistici di grandi dimensioni (LLM). Questa ricerca valuta due tecniche contemporanee—Co-Training guidato da LLM (LG-CoTrain) e VerifyMatch—rispetto a baseline tradizionali come Self-Training. I risultati indicano che LG-CoTrain supera ampiamente i metodi convenzionali in scenari con poche risorse, con 5, 10 e 25 istanze etichettate per categoria, ottenendo il miglior punteggio medio Macro F1 in vari eventi. VerifyMatch mostra risultati competitivi con una calibrazione efficace. All'aumentare della quantità di dati etichettati, le differenze di performance diminuiscono e Self-Training emerge come una baseline robusta. La ricerca sottolinea il potenziale degli LLM nel migliorare la classificazione dei dati di crisi con dati etichettati limitati, a beneficio delle iniziative di risposta ai disastri.
Fatti principali
- Prima valutazione empirica dell'apprendimento semi-supervisionato guidato da LLM per la classificazione di tweet di crisi.
- Confronta VerifyMatch e LG-CoTrain con baseline semi-supervisionate consolidate.
- LG-CoTrain supera gli approcci classici con 5, 10 e 25 esempi etichettati per classe.
- VerifyMatch raggiunge performance competitive con una forte calibrazione.
- Il divario di performance si riduce all'aumentare degli esempi etichettati; Self-Training diventa una baseline robusta.
- Lo studio si concentra sui dati dei social media nel contesto della gestione dei disastri.
- Pubblicato su arXiv con ID 2605.08448.
- Si osservano modelli semi-supervisionati compatti.
Entità
Istituzioni
- arXiv