VCBench: Benchmark per LLM nella Previsione del Successo dei Founder nel Venture Capital
VCBench è stato lanciato come il primo benchmark volto a valutare i modelli linguistici di grandi dimensioni (LLM) nella loro capacità di prevedere il successo dei founder nel settore del venture capital (VC). Questo benchmark affronta un campo caratterizzato da segnali limitati e risultati imprevedibili, dove anche i migliori investitori mostrano prestazioni modeste. Inizialmente, l'indice di mercato registra una precisione dell'1,9%, con Y Combinator che lo supera di 1,7 volte e le aziende di primo livello di 2,9 volte. VCBench comprende 9.000 profili di founder anonimizzati, standardizzati per mantenere l'integrità predittiva riducendo al minimo l'esposizione dell'identità, dimostrando una riduzione di oltre il 90% del rischio di re-identificazione attraverso test avversari. Le valutazioni hanno incluso nove LLM avanzati, come DeepSeek-V3 e GPT-4o, con DeepSeek-V3 che ha raggiunto oltre sei volte la precisione di base, mentre GPT-4o ha ottenuto il punteggio F0.5 più alto, superando i benchmark umani nella maggior parte dei casi. Questa risorsa è pensata come un dataset pubblico e costantemente aggiornato per migliorare l'analisi basata sull'IA nel venture capital.
Fatti principali
- 1. VCBench è il primo benchmark per prevedere il successo dei founder nel venture capital.
- 2. La precisione dell'indice di mercato all'inizio è dell'1,9%.
- 3. Y Combinator supera l'indice di un fattore 1,7x.
- 4. Le aziende di primo livello sono 2,9x migliori dell'indice.
- 5. VCBench fornisce 9.000 profili di founder anonimizzati.
- 6. I test avversari mostrano una riduzione di oltre il 90% del rischio di re-identificazione.
- 7. DeepSeek-V3 offre oltre sei volte la precisione di base.
- 8. GPT-4o ottiene il punteggio F0.5 più alto tra i modelli valutati.
Entità
Istituzioni
- Y Combinator
- VCBench