๐Paper Review
[paper review] GRAPH ATTENTION NETWORKS
ย
Introduction
CNN์ local filter๋ฅผ ์ฌ์ฉํ๋ฉฐ grid ๊ธฐ๋ฐ์ ๋ฐ์ดํฐ ๊ตฌ์กฐ(e.g. image)์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋์ด ์์ต๋๋ค.
ํ์ง๋ง, ์ค์ ๋ง์ Task(3d-mesh, social networks, telecommunication networks, ..)๋ค์ ์ด๋ฌํ grid-like ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.
๋ฐ๋ผ์ ์์์ ๊ตฌ์กฐํ ๋ ๋ฐ์ดํฐ(arbitrarily structured data)์ ์ ๊ฒฝ๋ง์ ์ ์ฉํ๊ธฐ ์ํ ๋
ธ๋ ฅ๋ค์ด ๊ณ์๋๊ณ ์์ต๋๋ค.
GNN ๋ํ ์ด๋ฌํ ๋
ธ๋ ฅ ์ค ํ๋ ์
๋๋ค.
ย
GNN์๋ ํฌ๊ฒ ๋๊ฐ์ง ์ข
๋ฅ๊ฐ ์กด์ฌํฉ๋๋ค.
์ฒซ ๋ฒ์งธ๋, GCN๊ณผ ๊ฐ์ Spectral approach์
๋๋ค.
Spectral approach๋ Graph์ signal(graph laplacian)์ eigenvalue decompositionํ์ฌ ํธ๋ฆฌ์ ๋๋ฉ์ธ์์ ์ ์๋ Convolution ์ฐ์ฐ์ ํตํด ๊ทธ๋ํ(๋
ธ๋)๋ฅผ ํํํฉ๋๋ค.
GCN์ ํนํ ์ถ์ฒ ์์คํ
๊ณผ ๊ฐ์ด ๋น ๊ฐ์ด ๋ง์ semi-supervised node classification์์ ๋งค์ฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ๋๋์ ์ผ๋ก๋ ์ ์ ์๋ฏ, eigenvector๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๊ทธ๋ํ์ ๊ตฌ์กฐ๊ฐ ์กฐ๊ธ์ด๋ผ๋ ๋ฐ๋๋ค๋ฉด ํ์ตํ ๋ด์ฉ์ ๋ค๋ฅธ ๊ทธ๋ํ์ ์ ์ฉ(inductive case)ํ ์ ์์ต๋๋ค.
ย
๋ ๋ฒ์งธ๋, graph-sage์ ๊ฐ์ non-spectral approach์
๋๋ค.
non-spectral approach๋ spectral analysis๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ๋จ์ํ ์ด์๋ค์ ์ ๋ณด๋ฅผ aggregator๋ฅผ ํตํด ์ทจํฉํ๋ ๋ฐฉ์์ผ๋ก ๊ทธ๋ํ๋ฅผ ํ์ตํฉ๋๋ค. ๋ฐ๋ผ์ non-spectral approach์ ๊ด๊ฑด์ ๋ถ ํน์ ํ ๋ค์์ ์ด์ ์ ๋ณด๋ฅผ ์ด๋ ํ ๋ฐฉ์์ผ๋ก aggregateํ ๊ฒ์ธ์ง ์
๋๋ค. ์์๋ก, graph sage๋ fixed size์ ์ด์์ samplingํ๋ ๋ฐฉ์์ aggregator๋ฅผ ์ฌ์ฉํฉ๋๋ค.
ย
๋ณธ ๋
ผ๋ฌธ์ non-spectral์ ๊ด์ ์์ attention์ ์ฌ์ฉํ aggregator ๋ชจ๋ธ์ธ GAT(graph attention networks)๋ฅผ ์ ์ํ๊ณ ์์ต๋๋ค.
ย
๋ณธ ๋
ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- node pair๋ก ๋ณ๋ ฌํ ์ํฌ ์ ์๋ ๋งค์ฐ ํจ์จ์ ์ธ aggregation ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- ๋์ผํ degree๋ฅผ ๊ฐ์ง ์๋ node์ ๋ํด์๋ ์ ์ฉํ ์ ์์ต๋๋ค.
- unseen graph(inductive learning problem)์๋ ์ ์ฉํ ์ ์์ต๋๋ค.
Proposed Method
ย
๊ฐ๋จํ๊ฒ ํ๋์ GAT layer๋ฅผ ์์๋ก ๋ค์ด ์ ์ํ๋ ๋ฐฉ๋ฒ์ ์ค๋ช
๋๋ฆฌ๊ฒ ์ต๋๋ค.
GNN๊ณผ Attention mechanism์ ์์ ๋ค๋ฉด ์ฝ๊ฒ ์ดํดํ์ค ์ ์์ต๋๋ค.
ย
- input
๋จผ์ , GAT layer์ input์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
set of node features.
is # or nodes, is # of features
- output
GAT layer๋ output ์ญ์ input๊ณผ ๋์ผํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ต๋๋ค. ํ์ง๋ง ์ผ๋ฐ์ ์ธ ์ ๊ฒฝ๋ง๊ณผ ๊ฐ์ด feature space์ ํฌ๊ธฐ๋ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค.
is # of nodes, is # of features
- GAT layer computation
๋ชจ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ด ๊ทธ๋ ๋ฏ input feature๋ฅผ high leavel output feature๋ก ๋ณํํ๊ธฐ ์ํด์๋ ์ต์ํ ํ๋์ learnable linear transformation layer๊ฐ ํ์ํฉ๋๋ค. GAT์ญ์ ๋์ผํ๋ฉฐ, weight matrix ๋ ๊ฐ๊ฐ์ ๋
ธ๋์ ์ ์ฉ๋์ด ๊ทธ ์ญํ ์ ์ํํฉ๋๋ค.
๋ฐ๋ผ์ ์ด์ ๋
ธ๋ ์ฌ์ด์ attention์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค.
attention ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ node i,j ์ฌ์ด์ attention coefficients๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
<๊ทธ๋ฆผ 1> ์ผ์ชฝ๊ณผ ๊ฐ์ด, ๋ณธ ๋
ผ๋ฌธ์์๋ attention mechanism ๋ฅผ ๊ตฌํ๊ธฐ ์ํด weight matrix ๋ฅผ ํฌํจํ๋ single-layer feedforward network๋ฅผ ์ฌ์ฉํฉ๋๋ค. (bahdanau attention)
๋ฐ๋ผ์ ์ข
ํฉํ๋ฉด, ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ attention coefficients ๋ ์๋์ ์๊ณผ ๊ฐ์์ง๋๋ค.
ย
์ด์ ๋
ธ๋์์ attention coefficients๋ฅผ ๋ฐ์ํ GAT layer๋ฅผ ์ง๋ node i์ feature๋ ๋ค์๊ณผ ๊ฐ์์ง๋๋ค.
๋น์ฐํ๊ฒ, k๊ฐ์ multi-head attention์ concatํ์ฌ ์ฌ์ฉํ ์๋ ์์ต๋๋ค.
final(prediction) layer์ ํํด์๋ concat์ด ์๋ averaging์ ์ฌ์ฉํฉ๋๋ค.
ย
Experiments
์คํ์ transductive, inductive setting์์ ๊ฐ๊ฐ node classification ์ฑ๋ฅ์ ๋น๊ตํ์์ต๋๋ค.
์คํ์ ์ฌ์ฉํ dataset ์
๋๋ค.
3๊ฐ์ transductive problem๊ณผ 1๊ฐ์ inductive problem์ธ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
ย
- transductive problem
mean classfication acc๋ฅผ ๋น๊ตํ์์ต๋๋ค.
GAT๊ฐ spectral model์ธ GCN๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
ย
- inductive problem
micro-averaged F1 score๋ฅผ ๋น๊ตํ์์ต๋๋ค.
GraphSage๋ณด๋ค ๋งค์ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
ย