L'Ottimizzazione delle Preferenze a Posteriori Migliora la Consulenza Finanziaria degli LLM
I ricercatori propongono l'Ottimizzazione delle Preferenze a Posteriori (HPO), un metodo che utilizza i risultati osservati per generare coppie di preferenze per addestrare modelli linguistici su consulenze finanziarie basate su serie temporali. L'HPO colma il divario tra apprendimento per rinforzo e allineamento delle preferenze, consentendo a un giudice LLM di classificare le consulenze candidate su dimensioni che vanno oltre le metriche scalari. Applicato a consulenze su azioni S&P 500 basate su modelli visione-linguaggio, un modello da 4B ha superato il suo insegnante da 235B in accuratezza e qualità della consulenza. L'approccio affronta la sfida che la qualità della consulenza dipende da risultati sconosciuti al momento della previsione, utilizzando informazioni a posteriori per creare segnali di addestramento senza annotazione umana.
Fatti principali
- Proposta dell'Ottimizzazione delle Preferenze a Posteriori (HPO) per consulenze finanziarie su serie temporali
- HPO utilizza i risultati osservati per generare coppie di preferenze per DPO senza annotazione umana
- Applicato a consulenze su azioni S&P 500 basate su modelli visione-linguaggio
- Un modello da 4B ha superato il suo insegnante da 235B in accuratezza e qualità della consulenza
- Colma il divario tra apprendimento per rinforzo e allineamento delle preferenze
- Affronta la sfida della qualità della consulenza dipendente dai risultati
- Utilizza informazioni a posteriori non disponibili al momento della previsione
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv