๐Paper Review
[paper reivew] Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
IntrodictionMethodologyEfficient Self-attention MechanismEncoder: Allowing for Processing Longer Sequential Inputs under the Memory Usage LimitationSelf-attention DistillingExperiment
ย
Introdiction
๋ณธ ๋
ผ๋ฌธ์ transformer ๊ธฐ๋ฐ์ long sequence time series forecasting(LSTF๋ผ๊ณ ์ ์) ๋ฌธ์ ์ ๋ํ ๊ฐ์ ๋ฐฉ์์ ์ ์ํจ.
์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์์ธกํด์ผํ๋ sequence๊ฐ ์ฆ๊ฐํ ์๋ก MSE loss๊ฐ ๊ธ๊ฒฉํ ์ฆ๊ฐํ๋ฉฐ ์ด๋น inferenceํ ์ ์๋ ์์ธก๊ฐ์ ๊ฐ์๋ก ๊ธ๊ฒฉํ ์ค์ด๋ ๋ค๋ ๊ฒ์ ํ์ธ ๊ฐ๋ฅ
transformer๋ long-range alignment ability ์ ๋ํด์๋ ๋น๊ต์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง efficient operations on long sequence inputs and outputs ์ธก๋ฉด์์ ํจ์จ์ ์ด์ง ๋ชปํจ
transformer์ self attention ์ฐ์ฐ์ quadratic ์ ๋ณต์ก๋ ๊ฐ์ง๋ฉฐ ๊ฐ์ layer๋ฅผ ๊ฐ์ง๋ transformer ํน์ฑ์ ์ด ๋ณต์ก๋๋ ๋ฅผ ๊ฐ์ง๊ฒ ๋จ
๋ํ inference์ step-by-step decoding์ ์ํํ์ฌ ์๋๊ฐ ์ ํ๋จ
๋ณธ ๋
ผ๋ฌธ์ ์ด๋ฌํ ๋ฌธ์ ๋ค์ ๊ฐ์ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก
- ์ ์๊ฐ๋ณต์ก๋, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ProbSparse self-attention mechanism ์ ์
- self-attention distilling operation ์ ์, feature ์ถ์ถ์ ํ์ํ stacking layer์ ๊ณต๊ฐ ๋ณต์ก๋ ๋ก ๊ฐ์
- ํ๋์ forward step๋ง์ผ๋ก long sequence output์ ์ป์ ์ ์๋ generative style decoder ์ ์
Methodology
Efficient Self-attention Mechanism
๊ธฐ์กด transformer์ attention mechanism์ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ ํํ๊ฐ๋ฅ
query์ key์ ๋ด์ ์ ๊ทผ์ฌํ๋ ํจ์ ์ฌ์ฉ
ํน์ query ์ ๋ํ softmax ํ๋ฅ ์ ๋ชจ๋ j๊ฐ์ key์ attention score๋ฅผ ํฉํ ๊ฒ๊ณผ ๊ฐ๋ค๊ณ ๋ณผ ์ ์์ ๋ฐ๋ผ์ ์ด๋ฌํ ํ๋ฅ ์ ๋ฐ๋ฅด๋ ์ ํ๊ท ์ด๋ผ๊ณ ๋ค์ ํํ ๊ฐ๋ฅ
์ด๊ฒ์ quadraticํ ๋ด์ ์ฐ์ฐ ๋ณต์ก๋์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ
๋ณธ ๋
ผ๋ฌธ์ performance์ ์ ์๋ฏธํ ์ํฅ ๋ผ์น์ง ์๋ ํ๋ฅ ๊ฐ๋ค ์ ์ธํ๋ selective ์ ๋ต ์ฌ์ฉ
ํน์ query๊ฐ ๋ค๋ฅธ key๋ค๊ณผ ์ํธ์์ฉ์ด ํ๋ฐํ์ง ์๋ค๋ฉด uniformํ ํํ์ ํ๋ฅ ๋ถํฌ ๊ฐ์ง ๊ฒ
๋ฐ๋ผ์ ์ ๋ถํฌ๊ฐ uniform ๋ถํฌ ์ ์ ์ฌํ๋ฉด ์๋์ ์ผ๋ก ๋ถํ์ํ query๋ก ์๊ฐํ ์ ์์
์์ํญ ์ ๊ฑฐํ ํ ๋ฒ์งธ query์ ๋ํ sparsity ์ธก์ ๋ฐฉ๋ฒ์ผ๋ก ๋ค์์ ์ ์
ํด๋น ๊ฐ์ด ๋์ ์๋ก ์ ์๋ฏธํ query๋ฅผ ์๋ฏธ
๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ ํตํด ์ ์๋ฏธํ query๋ง์ ์ ํํ์ฌ attention ๊ณ์ฐํ๋ ๊ฒ์ด PropSparse self attention
Encoder: Allowing for Processing Longer Sequential Inputs under the Memory Usage Limitation
Self-attention Distilling
probsparse attention ํ convolution๊ณผ max-pooling ํตํด distilling
์ด๋ฅผ ํตํด ๋ค์ layer์ input์ด ์ด์ layer input demension์ ์ ๋ฐ์ ๊ธธ์ด๋ฅผ ๊ฐ์ง๋๋ก distilling
์ด๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๋ก ๊ฐ์์ํด
ย
Experiment
univariate long sequence์ ๋ํ ์คํ๊ฒฐ๊ณผ
๋์ฒด์ ์ผ๋ก informer๊ฐ ๊ฝค ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
๋ค๋ณ๋์ ๋ํด์๋ informer๊ฐ ์ข์ ์ฑ๋ฅ๋ณด์ฌ์ฃผ์ง๋ง ๋จ๋ณ๋์์๋งํผ ์ ์๋ฏธํ ์ฐจ์ด๋ ์๋
ย