NorBERTo: Nuovo Modello Encoder Portoghese Addestrato su 331 Miliardi di Token
NorBERTo, un modello linguistico encoder-only all'avanguardia per il portoghese, è stato presentato dai ricercatori, utilizzando il framework ModernBERT. Questo modello è progettato per gestire contesti lunghi e incorpora meccanismi di attenzione efficienti. È stato sviluppato utilizzando Aurora-PT, un corpus di portoghese brasiliano appena assemblato composto da 331 miliardi di token GPT-2 provenienti da varie piattaforme web e dataset multilingue esistenti. Nelle valutazioni delle prestazioni, NorBERTo-large ha eccelso tra i modelli encoder sul dataset PLUE, raggiungendo un punteggio F1 di 0,9191 su MRPC e un'accuratezza di 0,7689 su RTE. Inoltre, ha ottenuto il punteggio F1 più alto per l'entailment, circa 0,904, su ASSIN 2. Il modello si basa su progressi precedenti come BERTimbau e Albertina PT-BR.
Fatti principali
- NorBERTo è basato sull'architettura ModernBERT.
- Addestrato sul corpus Aurora-PT con 331 miliardi di token GPT-2.
- Aurora-PT è un corpus di portoghese brasiliano da fonti web e dataset multilingue.
- NorBERTo-large raggiunge un F1 di 0,9191 su MRPC (PLUE).
- NorBERTo-large raggiunge un'accuratezza di 0,7689 su RTE (PLUE).
- NorBERTo-large raggiunge circa 0,904 F1 per entailment su ASSIN 2.
- Il modello si basa su BERTimbau e Albertina PT-BR.
- Supporta contesti lunghi e attenzione efficiente.
Entità
—