ARTFEED — Contemporary Art Intelligence

L'Ottimizzazione delle Preferenze a Posteriori Migliora la Consulenza Finanziaria degli LLM

ai-technology · 2026-04-29

I ricercatori propongono l'Ottimizzazione delle Preferenze a Posteriori (HPO), un metodo che utilizza i risultati osservati per generare coppie di preferenze per addestrare modelli linguistici su consulenze finanziarie basate su serie temporali. L'HPO colma il divario tra apprendimento per rinforzo e allineamento delle preferenze, consentendo a un giudice LLM di classificare le consulenze candidate su dimensioni che vanno oltre le metriche scalari. Applicato a consulenze su azioni S&P 500 basate su modelli visione-linguaggio, un modello da 4B ha superato il suo insegnante da 235B in accuratezza e qualità della consulenza. L'approccio affronta la sfida che la qualità della consulenza dipende da risultati sconosciuti al momento della previsione, utilizzando informazioni a posteriori per creare segnali di addestramento senza annotazione umana.

Fatti principali

  • Proposta dell'Ottimizzazione delle Preferenze a Posteriori (HPO) per consulenze finanziarie su serie temporali
  • HPO utilizza i risultati osservati per generare coppie di preferenze per DPO senza annotazione umana
  • Applicato a consulenze su azioni S&P 500 basate su modelli visione-linguaggio
  • Un modello da 4B ha superato il suo insegnante da 235B in accuratezza e qualità della consulenza
  • Colma il divario tra apprendimento per rinforzo e allineamento delle preferenze
  • Affronta la sfida della qualità della consulenza dipendente dai risultati
  • Utilizza informazioni a posteriori non disponibili al momento della previsione
  • Pubblicato su arXiv

Entità

Istituzioni

  • arXiv

Fonti