TorchSight: LLM Locale Open-Source per la Classificazione di Documenti di Sicurezza

ai-technology · 2026-05-22

TorchSight è un sistema locale open-source progettato per la classificazione di documenti di sicurezza, che utilizza un modello Qwen 3.5 27B ottimizzato. È stato addestrato su 78.358 campioni provenienti da 13 fonti con licenza permissiva, insieme a dati sintetici da GPT-4, coprendo sette categorie di sicurezza e 51 sottocategorie. In test su 1.000 documenti, ha raggiunto un'accuratezza a livello di categoria del 95,0% (IC 95%: 93,5-96,2), superando le alternative commerciali che hanno registrato il 75,4-79,9% nelle stesse condizioni. Inoltre, valutato su un dataset esterno separato di 500 campioni, ha mantenuto un'accuratezza del 93,8%, dimostrando le sue solide prestazioni. Questo sistema affronta efficacemente la sfida della scansione di documenti per informazioni sensibili senza dipendere da servizi cloud o soluzioni basate su regole.

Fatti principali

TorchSight è un sistema locale open-source per la classificazione di documenti di sicurezza.
Utilizza un modello Qwen 3.5 27B ottimizzato.
Addestrato su 78.358 campioni da 13 fonti con licenza permissiva e dati sintetici GPT-4.
Copre sette categorie di sicurezza e 51 sottocategorie.
Ha raggiunto un'accuratezza del 95,0% a livello di categoria su 1.000 documenti (IC 95%: 93,5-96,2).
I modelli commerciali hanno ottenuto il 75,4-79,9% con lo stesso protocollo di prompting.
Su 500 campioni esterni, l'accuratezza è stata del 93,8%.
Progettato per evitare l'invio di dati a infrastrutture cloud esterne.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21