GraphSculptor: Pre-addestramento Efficiente tramite Selezione di Coreset

other · 2026-05-06

L'apprendimento auto-supervisionato su grafi (SSL) richiede tipicamente ampi dataset non etichettati, comportando notevoli costi computazionali. Studi indicano che questi dataset spesso presentano una considerevole ridondanza; ad esempio, sottocampionando uniformemente il 50% dei grafi si mantiene oltre il 96% delle prestazioni downstream. Per affrontare questo problema, i ricercatori hanno sviluppato GraphSculptor, una tecnica per creare coreset di pre-addestramento senza bisogno di etichette. Questo metodo sfrutta due punti di vista complementari: la struttura intrinseca e la semantica contestuale. La diversità strutturale viene valutata tramite statistiche intrinseche del grafo, generando un vettore di caratteristiche per ogni grafo, mentre la diversità semantica è rappresentata codificando descrizioni prodotte tramite grafo-testo con un modello linguistico pre-addestrato. Questa strategia senza etichette elimina la necessità di segnali aggiuntivi durante l'addestramento o di sole statistiche topologiche. L'approccio è dettagliato in un articolo disponibile su arXiv (2605.01310).

Fatti principali

L'apprendimento auto-supervisionato su grafi si basa su grandi dataset non etichettati.
Sottocampionando uniformemente il 50% dei grafi si mantiene oltre il 96% delle prestazioni downstream.
GraphSculptor costruisce coreset di pre-addestramento senza etichette.
Utilizza struttura intrinseca e semantica contestuale.
La diversità strutturale è quantificata tramite statistiche intrinseche del grafo.
La diversità semantica utilizza un modello linguistico pre-addestrato su descrizioni grafo-testo.
Il metodo è senza etichette e evita segnali aggiuntivi durante l'addestramento.
Articolo disponibile su arXiv con ID 2605.01310.

GraphSculptor: Pre-addestramento Efficiente tramite Selezione di Coreset

Fatti principali

Entità

Istituzioni

Fonti