GraphSculptor: Pre-addestramento Efficiente tramite Selezione di Coreset
L'apprendimento auto-supervisionato su grafi (SSL) richiede tipicamente ampi dataset non etichettati, comportando notevoli costi computazionali. Studi indicano che questi dataset spesso presentano una considerevole ridondanza; ad esempio, sottocampionando uniformemente il 50% dei grafi si mantiene oltre il 96% delle prestazioni downstream. Per affrontare questo problema, i ricercatori hanno sviluppato GraphSculptor, una tecnica per creare coreset di pre-addestramento senza bisogno di etichette. Questo metodo sfrutta due punti di vista complementari: la struttura intrinseca e la semantica contestuale. La diversità strutturale viene valutata tramite statistiche intrinseche del grafo, generando un vettore di caratteristiche per ogni grafo, mentre la diversità semantica è rappresentata codificando descrizioni prodotte tramite grafo-testo con un modello linguistico pre-addestrato. Questa strategia senza etichette elimina la necessità di segnali aggiuntivi durante l'addestramento o di sole statistiche topologiche. L'approccio è dettagliato in un articolo disponibile su arXiv (2605.01310).
Fatti principali
- L'apprendimento auto-supervisionato su grafi si basa su grandi dataset non etichettati.
- Sottocampionando uniformemente il 50% dei grafi si mantiene oltre il 96% delle prestazioni downstream.
- GraphSculptor costruisce coreset di pre-addestramento senza etichette.
- Utilizza struttura intrinseca e semantica contestuale.
- La diversità strutturale è quantificata tramite statistiche intrinseche del grafo.
- La diversità semantica utilizza un modello linguistico pre-addestrato su descrizioni grafo-testo.
- Il metodo è senza etichette e evita segnali aggiuntivi durante l'addestramento.
- Articolo disponibile su arXiv con ID 2605.01310.
Entità
Istituzioni
- arXiv