Aggregazione Veritiera delle Preferenze per il Fine-Tuning di LLM nel Crowdsourcing Mobile
Un nuovo articolo su arXiv propone un meccanismo per l'aggregazione veritiera online delle preferenze per il fine-tuning di grandi modelli linguistici (LLM) nel crowdsourcing mobile. Lo studio affronta la segnalazione strategica errata da parte dei lavoratori, che potrebbero distorcere il feedback per massimizzare l'influenza o il pagamento. I metodi esistenti, come la stima dei pesi basata su EM, non riescono a identificare il lavoratore più accurato, portando a un rimpianto lineare nel tempo. Gli autori formulano un gioco bayesiano dinamico che modella il processo di apprendimento multi-agente tra la piattaforma e i lavoratori. Introducono un nuovo meccanismo di aggregazione pesata online che regola dinamicamente i pesi per garantire veridicità e migliorare l'efficienza dell'apprendimento. L'articolo è pubblicato con arXiv:2605.24052.
Fatti principali
- L'articolo arXiv 2605.24052 propone un'aggregazione veritiera online delle preferenze per il fine-tuning di LLM nel crowdsourcing mobile.
- I lavoratori possono segnalare strategicamente feedback errati per massimizzare l'influenza o il pagamento.
- La stima dei pesi basata su EM esistente non riesce a identificare il lavoratore più accurato, risultando in un rimpianto lineare O(T).
- Un gioco bayesiano dinamico modella il processo di apprendimento online multi-agente.
- Viene proposto un nuovo meccanismo di aggregazione pesata online per garantire veridicità.
- Il meccanismo regola dinamicamente i pesi in base all'accuratezza del lavoratore.
- L'approccio mira a migliorare l'allineamento degli LLM con il feedback umano in applicazioni mobili come la navigazione.
- L'articolo è un tipo di invio incrociato.
Entità
Istituzioni
- arXiv