TildeOpen LLM: Un modello da 30 miliardi di parametri per 34 lingue europee

ai-technology · 2026-04-30

Un nuovo modello fondamentale chiamato TildeOpen LLM è stato presentato dai ricercatori, con 30 miliardi di parametri e progettato per supportare 34 lingue europee, con l'obiettivo di affrontare il problema della disparità linguistica nei modelli linguistici di grandi dimensioni. Questo modello impiega l'upsampling del dataset insieme a un approccio di addestramento basato sul curriculum che alterna distribuzioni uniformi e naturali del linguaggio. TildeOpen mostra prestazioni superiori rispetto agli attuali modelli open-weight su benchmark multilingue, specialmente per le lingue baltiche, ugro-finniche e slave, utilizzando meno risorse computazionali. Le valutazioni umane indicano una riduzione degli errori linguistici fino a dieci volte per le lingue con risorse limitate. L'articolo di ricerca è disponibile su arXiv con ID 2603.08182.

Fatti principali

TildeOpen LLM è un modello fondamentale open-weight da 30 miliardi di parametri.
Addestrato per 34 lingue europee.
Utilizza l'apprendimento curriculare con distribuzioni alternate uniformi e naturali del linguaggio.
Supera altri LLM multilingue nella generazione e comprensione del testo.
Particolarmente efficace per le lingue baltiche, ugro-finniche e slave.
Le valutazioni umane mostrano una riduzione fino a dieci volte degli errori linguistici.
Pubblicato su arXiv con ID 2603.08182.
Addestrato con risorse computazionali significativamente inferiori rispetto a modelli comparabili.

TildeOpen LLM: Un modello da 30 miliardi di parametri per 34 lingue europee

Fatti principali

Entità

Istituzioni

Fonti