Aggregazione Veritiera delle Preferenze per il Fine-Tuning di LLM nel Crowdsourcing Mobile

ai-technology · 2026-05-26

Un nuovo articolo su arXiv propone un meccanismo per l'aggregazione veritiera online delle preferenze per il fine-tuning di grandi modelli linguistici (LLM) nel crowdsourcing mobile. Lo studio affronta la segnalazione strategica errata da parte dei lavoratori, che potrebbero distorcere il feedback per massimizzare l'influenza o il pagamento. I metodi esistenti, come la stima dei pesi basata su EM, non riescono a identificare il lavoratore più accurato, portando a un rimpianto lineare nel tempo. Gli autori formulano un gioco bayesiano dinamico che modella il processo di apprendimento multi-agente tra la piattaforma e i lavoratori. Introducono un nuovo meccanismo di aggregazione pesata online che regola dinamicamente i pesi per garantire veridicità e migliorare l'efficienza dell'apprendimento. L'articolo è pubblicato con arXiv:2605.24052.

Fatti principali

L'articolo arXiv 2605.24052 propone un'aggregazione veritiera online delle preferenze per il fine-tuning di LLM nel crowdsourcing mobile.
I lavoratori possono segnalare strategicamente feedback errati per massimizzare l'influenza o il pagamento.
La stima dei pesi basata su EM esistente non riesce a identificare il lavoratore più accurato, risultando in un rimpianto lineare O(T).
Un gioco bayesiano dinamico modella il processo di apprendimento online multi-agente.
Viene proposto un nuovo meccanismo di aggregazione pesata online per garantire veridicità.
Il meccanismo regola dinamicamente i pesi in base all'accuratezza del lavoratore.
L'approccio mira a migliorare l'allineamento degli LLM con il feedback umano in applicazioni mobili come la navigazione.
L'articolo è un tipo di invio incrociato.

Aggregazione Veritiera delle Preferenze per il Fine-Tuning di LLM nel Crowdsourcing Mobile

Fatti principali

Entità

Istituzioni

Fonti