NorBERTo: Nuovo Modello Encoder Portoghese Addestrato su 331 Miliardi di Token

ai-technology · 2026-05-04

NorBERTo, un modello linguistico encoder-only all'avanguardia per il portoghese, è stato presentato dai ricercatori, utilizzando il framework ModernBERT. Questo modello è progettato per gestire contesti lunghi e incorpora meccanismi di attenzione efficienti. È stato sviluppato utilizzando Aurora-PT, un corpus di portoghese brasiliano appena assemblato composto da 331 miliardi di token GPT-2 provenienti da varie piattaforme web e dataset multilingue esistenti. Nelle valutazioni delle prestazioni, NorBERTo-large ha eccelso tra i modelli encoder sul dataset PLUE, raggiungendo un punteggio F1 di 0,9191 su MRPC e un'accuratezza di 0,7689 su RTE. Inoltre, ha ottenuto il punteggio F1 più alto per l'entailment, circa 0,904, su ASSIN 2. Il modello si basa su progressi precedenti come BERTimbau e Albertina PT-BR.

Fatti principali

NorBERTo è basato sull'architettura ModernBERT.
Addestrato sul corpus Aurora-PT con 331 miliardi di token GPT-2.
Aurora-PT è un corpus di portoghese brasiliano da fonti web e dataset multilingue.
NorBERTo-large raggiunge un F1 di 0,9191 su MRPC (PLUE).
NorBERTo-large raggiunge un'accuratezza di 0,7689 su RTE (PLUE).
NorBERTo-large raggiunge circa 0,904 F1 per entailment su ASSIN 2.
Il modello si basa su BERTimbau e Albertina PT-BR.
Supporta contesti lunghi e attenzione efficiente.

Entità

—

Fonti

arXiv cs.AI — 2026-05-04