Naamah: Nuovo dataset NER sanscrito tramite DBpedia e LLM

other · 2026-04-30

I ricercatori hanno introdotto Naamah, un dataset sintetico su larga scala per il riconoscimento di entità nominate (NER) in sanscrito, composto da 102.942 frasi. La metodologia combina l'estrazione di entità da DBpedia con un modello di ragionamento ibrido da 24 miliardi di parametri per generare dati di addestramento grammaticalmente naturali e diversificati. Il dataset valuta due architetture transformer: XLM RoBERTa e IndicBERTv2. Questo lavoro affronta la scarsità di risorse annotate per la digitalizzazione della letteratura sanscrita classica.

Fatti principali

Naamah è un dataset NER sanscrito silver standard con 102.942 frasi.
La metodologia utilizza l'estrazione di entità da DBpedia e un modello di ragionamento ibrido da 24 miliardi di parametri.
Valutato sulle architetture transformer XLM RoBERTa e IndicBERTv2.
Mira a superare la scarsità di risorse annotate per la PNL sanscrita.
Si concentra sulla digitalizzazione della letteratura sanscrita classica.

Naamah: Nuovo dataset NER sanscrito tramite DBpedia e LLM

Fatti principali

Entità

Istituzioni

Fonti