NanoKnow Benchmark Traccia le Fonti di Conoscenza degli LLM
Un nuovo dataset di benchmark chiamato NanoKnow è stato introdotto dai ricercatori per indagare le origini della conoscenza all'interno dei modelli linguistici di grandi dimensioni (LLM). Questo dataset categorizza le domande tratte da Natural Questions e SQuAD in base al fatto che le loro risposte siano presenti nel corpus di pre-addestramento di nanochat, una serie di piccoli LLM che utilizzano dati di pre-addestramento completamente accessibili. Tale trasparenza consente ai ricercatori di distinguere tra conoscenza parametrica (acquisita durante il pre-addestramento) e altre fonti di informazione. Le indagini che coinvolgono otto checkpoint di nanochat indicano che l'accuratezza delle domande a libro chiuso è significativamente influenzata dalla frequenza delle risposte nei dati di pre-addestramento. Questa ricerca affronta il problema persistente di comprendere come gli LLM immagazzinano la conoscenza, con potenziali benefici per migliorare l'affidabilità e l'interpretabilità del modello.
Fatti principali
- 1. NanoKnow è un dataset di benchmark da arXiv:2602.20122.
- 2. Suddivide le domande da Natural Questions e SQuAD.
- 3. Le suddivisioni si basano sulla presenza della risposta nel corpus di pre-addestramento di nanochat.
- 4. Nanochat è una famiglia di piccoli LLM con dati di pre-addestramento completamente aperti.
- 5. L'accuratezza a libro chiuso è fortemente influenzata dalla frequenza delle risposte.
- 6. Gli esperimenti hanno utilizzato otto checkpoint di nanochat.
- 7. La ricerca mira a comprendere come la conoscenza è codificata dagli LLM.
- 8. I dati di pre-addestramento sono spesso una scatola nera.
Entità
Istituzioni
- arXiv