Routing Consapevole del Budget per Testi Clinici Lunghi
Uno studio recente introduce RCD, un obiettivo submodulare monotono per la selezione contestuale con budget per modelli linguistici di grandi dimensioni che gestiscono testi clinici lunghi. Questo approccio affronta i vincoli relativi ai costi dei token e alla latenza scegliendo un numero limitato di unità documentali entro un budget definito. I ricercatori valutano vari metodi di unitizzazione, tra cui approcci basati su frasi, sezioni, finestre e cluster, e presentano un'euristica di routing che si adatta alle condizioni di budget. I risultati degli esperimenti condotti su note di dimissione MIMIC, abstract Cochrane e L-Eval indicano che le strategie più efficaci variano a seconda del contesto di valutazione.
Fatti principali
- arXiv:2605.00336v1
- RCD è un obiettivo submodulare monotono che bilancia pertinenza, copertura e diversità
- La selezione contestuale con budget sceglie un sottoinsieme di unità documentali sotto un budget di token rigoroso
- L'unitizzazione definisce la segmentazione del documento; la selezione determina quali unità vengono mantenute
- Confrontati metodi di unitizzazione basati su frasi, sezioni, finestre e cluster
- Introdotta un'euristica di routing che si adatta al regime di budget
- Esperimenti su note di dimissione MIMIC, abstract Cochrane e L-Eval
- Le strategie ottimali dipendono dall'impostazione di valutazione
Entità
—