본문 바로가기
스터디/인공지능, 딥러닝, 머신러닝

[CS224w] Dataset Split

by 궁금한 준이 2023. 5. 29.
728x90
반응형

 

Why Splitting Graphs is Special

image dataset을 생각해보자. 각 data point는 하나의 image이다. 5번째 image가 1번째 image에 영향을 주지 않는다.

그러나 graph에서는 다른다. 각 node는 독립이 아니라 다른 node에 영향을 줄 수 있다. (message passing을 생각해보자)

 

Transductive setting

input graph를 전체 데이터셋으로 간주한다. 

예를 들어 training time에는 전체 그래프를 이용하여 embedding을하고, node 1과 node 2로 label을 학습한다.

validation time에는 전체 그래프를 이용하여 embedding을 하고 node3과 node4 label로 evaluate한다.

따라서 node/edge prediction task에만 적용가능하다. (graph prediction은 불가능)

Transductive setting

Inductive setting

edge를 분리하여 하나의 그래프를 여러개의 그래프로 나눈다.

아래 그림으로 참고하면 우리는 3개의 그래프를 얻는것과 같다.

training time에는 node 1과 node 2가 있는 그래프로 학습하고, label 역시 같은 node 1과 node 2로 학습한다.

validation time에는 node 3과 node4가 있는 그래프로 검증 및 평가를 한다.

node/edge/graph task 모두 적용 가능하다.

Inductive setting

 

Graph Classification

graph classification의 경우, unseen graph에 test를 해야하므로 inductive setting만이 가능하다.

각 train/valid/test dataset에 있는 graph는 모두 독립(independent)한 그래프여야한다.

Example: Graph Classification

Link Prediction

missing edge를 예측하는 것이 주 task이며 unsupervised/self-supervised task이다.

우리가 직접 label을 만들고 dataset을 나누는 조작을 할 수 있다.

GNN의 edge를 감추고 GNN이 edge를 직접 예측하는 형태로 학습시킬 수 있다.

Example: Link Prediction

Setting up Link Prediction

Step 1: Assign 2 types of edges in the original graph

원래 그래프에서 edge를 2개의 type으로 만든다. 

하나는 message edge로 GNN에서 message passing을 담당한다.

다른 하나는 supervision edge로 link prediction에 사용할 objective이다.

message edge는 그대로 누고, supervision edge는 edge prediction에 사용되므로 GNN에 전달하면 안된다.

 

Step 2: Split edges into train / validation / test

Option 1: Inductive link prediction split

여러 그래프가 존재하여, 각 그래프를 독립적인 그래프로 간주하여 train/valid/test로 나눈다.

Inductive Link Prediction Split

Option 2: Transductive link prediction split (Default)

Transductive Link Prediction Split

전체 그래프를 train/valid/test dataset에 속하도록 한다. 

valid/test 에 사용되는 edge는 hold out해야한다. 그리고 train에서도 supervision edge는 hold out해야한다.

Edges at training/validation/test

굉장히 복잡하지만, PyG와 GraphGym에서 편리하게 제공하고있다.

 

Summary: GNN Training Pipeline

 

728x90
반응형