[paper review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
IntroductionMain contributionRelated worksBERTinput/output ํํpre-trainingMasked LM (MLM)8Next Sentence Prediction (NSP)Experiment
Introduction
ย
์ฌ์ ํ๋ จ๋ ์ธ์ดํํ์ down stream task์ ์ ์ฉ์ํค ์ํด์๋ ๋๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ค.
- feature-based : task-specificํ ๊ตฌ์กฐ (์) ELMo
- fine-tuning: task-specificํ parameter๋ฅผ ์ต์ํํ๊ณ down-stream task์ ๋ชจ๋ pre-trained parameter๋ฅผ fine-tuningํ๋ ๊ธฐ๋ฒ (์) GPT
๋๊ฐ์ง ๋ฐฉ์ ๋ชจ๋ unidirectional(๋จ๋ฐฉํฅ) ์ธ์ด๋ชจ๋ธ์์ ์ฌ์ ํ๋ จ์์ ๋๊ฐ์ ๋ชฉ์ ํจ์๋ฅผ ๊ฐ์ง๋ค.
ํ์ฌ๊น์ง ๋ฐํ๋ pre-trained ์ธ์ด๋ชจ๋ธ์ ์ฃผ๋ก unidirectionalํ์๋ค. (openAI GPT)
๊ทธ๋ฌ๋ ๋จ๋ฐฉํฅ ๋ชจ๋ธ์ ๋ฌธ์ฅ๋จ์ task์ ๋ํด ์์ ํ optimalํ์ง๋ ์์ผ๋ฉฐ, ์๋ฐฉํฅ์ ๋งฅ๋ฝ์ ๊ณ ๋ คํ๋ ๊ฒ์ด ์ค์ํ token๋จ์ task(QA)์์๋ ์จ์ ํ์ง ์๋ค.
๋ฐ๋ผ์ ํด๋น ๋
ผ๋ฌธ์์๋ BERT(ํธ๋์คํฌ๋จธ๋ฅผ ์ด์ฉํ ์๋ฐฉํฅ ์ธ์ฝ๋ representation)์ ์๊ฐํ๋ค. BERT์์๋ MLM(๋ง์คํฌ ์ธ์ด๋ชจ๋ธ)์ ์ฌ์ฉํด ์์ ์ธ๊ธํ ๋จ๋ฐฉํฅ์ฑ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ค.
MLM์์๋ ๋๋คํ๊ฒ ์ธํ์ ํ ํฐ๋ค์ maskํ๊ณ ๋ชฉ์ ํจ์๋ masked๋ ๋จ์ด์ ์๋ ๋จ์ด์ id๋ฅผ ๋งฅ๋ฝ์๋ง ์์กดํ์ฌ ์์ธกํ๋๋ก ์ค๊ณ๋๋ค.
left-to-right ์ธ์ด๋ชจ๋ธ์ ๋ํ ์ฌ์ ํ๋ จ๊ณผ๋ ๋ฌ๋ฆฌ MLM obejctive๋ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ ์๋ฐฉํฅ์ ๋งฅ๋ฝ์ ์ตํฉ๋๋๋ก ํ๋ค.
๋ํ ์ถ๊ฐ์ ์ผ๋ก MLM์์๋ NSP(next sentence prediction, ๋ค์ ๋ฌธ์ฅ ์์ธก)๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ ๋๊ฐ์ ๋ฌธ์ฅ pair์ ๋ํ representation์ ์ฌ์ ํ๋ จํ๋ค.
ย
Main contribution
- MLM์ ์ด์ฉํด deep bidirectional representation์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- ๋ณต์กํ๊ณ ๋ฌด๊ฑฐ์ด ์์ง๋์ด๋ง์ด ํ์ํ task specificํ ๋ฐฉ๋ฒ๋ก ๋ณด๋ค๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋๋ค.
- 11๊ฐ์ nlp task์์ SOTA๋ฅผ ๋ฌ์ฑํ๋ค.
Related works
- unsupervised feature based approaches
- unsupervised fine-tuning approaches
- transfer learning from supervised data
BERT
bert ๋ชจ๋ธ์๋ ์์ ๊ฐ์ด pre-training, fine-tuning๋ผ๋ ๋๊ฐ์ step์ด ์๋ค.
๋ ์คํ
์์ ์ฌ์ฉ๋๋ ๊ตฌ์กฐ๋ ๋ง์ง๋ง output layer์ ์ ์ธํ๊ณ ๋ ๋ค ๋์ผํ๋ค.
unlabled data๋ก ์ฌ์ ํ์ต์ด ๋ ๊ฐ์ค์น๋ฅผ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ ๊ฐ์ผ๋ก ์ก๊ณ labeled ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด fine tuning์ ํ๊ฒ ๋๋ฉฐ task๊ฐ ๋ฌ๋ผ๋ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ ๊ฐ์ ๋ค ๋์ผํ๊ฒ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๋ก ์์๋๋ค.
CLS ํ ํฐ์ special token์ผ๋ก, ๋ชจ๋ ์ธํ์์ ์ถ๊ฐ๋๋ฉฐ SEP ํ ํฐ์ ๋ฌธ์ฅ(๋๋ ๋ฌธ์)์ ๊ตฌ๋ถํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ํ ํฐ์ด๋ค.
bert๋ down stream task์ ์ข
๋ฅ์ ์๊ด์์ด ๋ชจ๋ ๊ตฌ์กฐ๊ฐ ๋์ผํ๋ค๋ ํน์ดํ ์ ์ด ์๋ค.
bert๋ transformer์ ์ธ์ฝ๋๋ฅผ ์ฌ๋ฌ๊ฐ ์์ ๋ง๋ ๊ตฌ์กฐ์ด๋ค.
(transforemer ์ธ์ฝ๋์ sublayer๋ ํฌ๊ฒ ๋๊ฐ๋ก, multihead self attention๊ณผ position wise FC layer๊ฐ ์๋ค)
input/output ํํ
๋ค์ํ down stream task์ ๋ฌธ์ ์์ด ์ฌ์ฉ๋๊ธฐ ์ํด ๋๋ฌธ์ฅ์ด๋ ํ๋ฌธ์ฅ์ด๋ ํ๋์ token sequence๋ก ๋ํ๋ด์ผ ํ๋ค.
(๋ณธ๋
ผ๋ฌธ์์ sequence๋ bert์ ์ธํ์ด ๋๋ ํ๋์ ๋ฉ์ด๋ฆฌ๋ก, ์ด๋ ํ๋ฌธ์ฅ์ผ์๋ ๋๋ฌธ์ฅ์ผ์๋ ์๋ค. ๋ํ ๋ฌธ์ฅ์ ์ธ์ด์ ์ผ๋ก ํต์ฉ๋๋ ์๋ฏธ์ ๋ฌธ์ฅ์ด๋ผ๊ธฐ ๋ณด๋ค๋ ์ฐ์์ ์ธ ํ
์คํธ์ ๋ญํ
์ด๋ผ๊ณ ์๊ฐํด์ผํ๋ค.
bert ๊ณ์ด ๋
ผ๋ฌธ์์ sequence์ sentence๊ฐ ๋ค๋ฅธ ๊ฒ์ด๋ฉฐ ๊ฐ ์๋ฏธ๋ฅผ ์๋ ๊ฒ์ด ์ค์ํ๋ค.)
tokenization์ BPE์ ์ผ์ข
์ธ wordpiece tokenizer๋ฅผ ์ฌ์ฉํ๋ค. (30000๊ฐ์ ๋จ์ด์งํฉ์ ๊ฐ์ง)
๋ชจ๋ ์ธํ์ ๋งจ์์๋ CLS๋ผ๋ ์คํ์
ํ ํฐ์ ๋์๋๋ฐ ์ด์ ๋ํ hidden state์ sequence์ ๋ํ representation์ผ๋ก ๋ถ๋ฅtask์ ํ์ฉ๋๋ค.
ํ๋์ sequence๋ด์ ๋๋ฌธ์ฅ์ ๊ตฌ๋ถํ๋ ๋ฐฉ๋ฒ์ ๋๊ฐ์ง์ธ๋ฐ SEPํ ํฐ์ ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๋๋ ๋ฐฉ๋ฒ๊ณผ
์๋ฒ ๋ฉ์ธต์ ์์ ํ๋ ๋ง๋ค์ด์ ๊ฐ ํ ํฐ์ด ๋ฌธ์ฅ1์ ์ํ๋์ง ๋ฌธ์ฅ2์ ์ํ๋์ง๋ฅผ ํ์ํ๋ ๊ฒ์ด๋ค.
ย
์ ๊ทธ๋ฆผ์ bert์ ์ธํ representation์ด๋ค.
ํฌ์ง์
์๋ฒ ๋ฉ, ์ด๋ค sentence์ ์ํ๋์ง๋ฅผ ํํํ๋ ์ธ๊ทธ๋จผํธ ์๋ฒ ๋ฉ, ๊ทธ๋ฆฌ๊ณ ๊ฐ ํ ํฐ์ ๋ํ ์๋ฒ ๋ฉ์ ํฉ์ณ ๋ง๋ ๋ค.
pre-training
MLM๋ฐฉ๋ฒ๊ณผ NSP๋ฐฉ๋ฒ ๋๊ฐ์ง๋ก ์ฌ์ ํ๋ จํ๋ค.
Masked LM (MLM)8
Next Sentence Prediction (NSP)
ย
Experiment
ย
GLUE
ย
ย