TorchSight: LLM Locale Open-Source per la Classificazione di Documenti di Sicurezza
TorchSight è un sistema locale open-source progettato per la classificazione di documenti di sicurezza, che utilizza un modello Qwen 3.5 27B ottimizzato. È stato addestrato su 78.358 campioni provenienti da 13 fonti con licenza permissiva, insieme a dati sintetici da GPT-4, coprendo sette categorie di sicurezza e 51 sottocategorie. In test su 1.000 documenti, ha raggiunto un'accuratezza a livello di categoria del 95,0% (IC 95%: 93,5-96,2), superando le alternative commerciali che hanno registrato il 75,4-79,9% nelle stesse condizioni. Inoltre, valutato su un dataset esterno separato di 500 campioni, ha mantenuto un'accuratezza del 93,8%, dimostrando le sue solide prestazioni. Questo sistema affronta efficacemente la sfida della scansione di documenti per informazioni sensibili senza dipendere da servizi cloud o soluzioni basate su regole.
Fatti principali
- TorchSight è un sistema locale open-source per la classificazione di documenti di sicurezza.
- Utilizza un modello Qwen 3.5 27B ottimizzato.
- Addestrato su 78.358 campioni da 13 fonti con licenza permissiva e dati sintetici GPT-4.
- Copre sette categorie di sicurezza e 51 sottocategorie.
- Ha raggiunto un'accuratezza del 95,0% a livello di categoria su 1.000 documenti (IC 95%: 93,5-96,2).
- I modelli commerciali hanno ottenuto il 75,4-79,9% con lo stesso protocollo di prompting.
- Su 500 campioni esterni, l'accuratezza è stata del 93,8%.
- Progettato per evitare l'invio di dati a infrastrutture cloud esterne.
Entità
—