L'Ottimizzazione delle Preferenze a Posteriori Migliora la Consulenza Finanziaria degli LLM

ai-technology · 2026-04-29

I ricercatori propongono l'Ottimizzazione delle Preferenze a Posteriori (HPO), un metodo che utilizza i risultati osservati per generare coppie di preferenze per addestrare modelli linguistici su consulenze finanziarie basate su serie temporali. L'HPO colma il divario tra apprendimento per rinforzo e allineamento delle preferenze, consentendo a un giudice LLM di classificare le consulenze candidate su dimensioni che vanno oltre le metriche scalari. Applicato a consulenze su azioni S&P 500 basate su modelli visione-linguaggio, un modello da 4B ha superato il suo insegnante da 235B in accuratezza e qualità della consulenza. L'approccio affronta la sfida che la qualità della consulenza dipende da risultati sconosciuti al momento della previsione, utilizzando informazioni a posteriori per creare segnali di addestramento senza annotazione umana.

Fatti principali

Proposta dell'Ottimizzazione delle Preferenze a Posteriori (HPO) per consulenze finanziarie su serie temporali
HPO utilizza i risultati osservati per generare coppie di preferenze per DPO senza annotazione umana
Applicato a consulenze su azioni S&P 500 basate su modelli visione-linguaggio
Un modello da 4B ha superato il suo insegnante da 235B in accuratezza e qualità della consulenza
Colma il divario tra apprendimento per rinforzo e allineamento delle preferenze
Affronta la sfida della qualità della consulenza dipendente dai risultati
Utilizza informazioni a posteriori non disponibili al momento della previsione
Pubblicato su arXiv

L'Ottimizzazione delle Preferenze a Posteriori Migliora la Consulenza Finanziaria degli LLM

Fatti principali

Entità

Istituzioni

Fonti