๐Paper Review
[paper review] RoBERTa: A Robustly Optimized BERT Pretraining Approach
date
Nov 20, 2023
slug
RoBERTa
author
status
Public
tags
paper
DeepLearning
summary
type
Post
thumbnail
category
๐Paper Review
updatedAt
Sep 6, 2024 02:17 PM
ย
ROBERTa == BERT์์ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ๋ก ์ ๋ฐ๊พธ๊ณ ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฐ ๋ชจ๋ธ
ย
ROBERTa๋ BERT ๋ชจ๋ธ์ด ์ธ๋ํผํ
๋์์์ ํ์ธํ์ฌ ๊ธฐ์กด BERT์ ๋ํด ์ฌ์ ํ์ต์ ๋ช๊ฐ์ง ์์ ์ฌํญ์ ๋๊ณ ์๋กญ๊ฒ ํ๋ จํ ๋ชจ๋ธ์ด๋ค.
- BERT์ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ MLM, NSP ๋๊ฐ์ง ์ด๋ค.
ย
ย
- mlm์ ๋์ ๋ง์คํน๋ฐฉ๋ฒ ์ฌ์ฉ
- ๊ธฐ์กด์ BERT์์๋ ์ ์ ๋ง์คํน ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ์ด๋ ๋ชจ๋ธ์ ํ์ต์ด ์์๋๊ธฐ ์ ์ ์ฒ๋ฆฌ ๋จ๊ณ์์ ๋ฌธ์ฅ์ ๋ํด ํ๋ฒ ๋ง์คํน์ ํ๋ฉด ๋์ผํ๊ฒ ๋ง์คํน๋ ์ํ๊ฐ ๋งค ์ํญ๋ง๋ค ์ฌ์ฉ๋๋ ๋ง์คํน ๋ฐฉ์์ ๋งํ๋ค. ์ฆ ํ๋์ ๋ฌธ์ฅ์ด ํ๋ฒ ๋ง์คํน ๋๋ฉด ๋ค๋ฅธ ํ ํฐ์ ๋ง์คํน๋ ๊ธฐํ๊ฐ ์์ด์ง๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ROBERTa์์ ์ฌ์ฉํ๋ ๋ง์คํน ๋ฐฉ๋ฒ์์๋ ๋๊ฐ์ ๋ฌธ์ฅ์ 10๊ฐ๋ฅผ ์์ฑํ๊ณ ๊ฐ๊ฐ ๋ฌด์์๋ก 15%ํ๋ฅ ๋ง์คํฌ ์์ ์ ํ๋ค. ์ด๋ฅผ ํตํด ํ๋์ ๋ฌธ์ฅ์ด ์๋ก ๋ค๋ฅธ ํ ํฐ์ด ๋ง์คํน๋ ํํ๊ฐ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋์ผํ ๋ฌธ์ฅ์ ๋ค๋ฅธ ๋ถ๋ถ์ด ๋ง์คํน๋ ํํ๊ฐ ๋งค ์ํญ ํ์ต๋์ด ๋ค์์ฑ์ด ์ฆ๊ฐํ๋ค.
- NSP๋ฅผ ์ ๊ฑฐํจ.
- ์คํ ๊ฒฐ๊ณผ MLM, NSP๋ฅผ ๋ ๋ค ์ฌ์ ํ์ต์ ์ด์ฉํ๋ ๊ฒ๋ณด๋ค NSP๋ฅผ ์ฌ์ฉํ์ง ์๊ณ MLM๋ง ์ฌ์ฉํ ๊ฒฐ๊ณผ๊ฐ ๋ ์ฑ๋ฅ์ด ์ข๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
- ๋ฐ์ดํฐ ์์ ๋๋ฆผ
- BERT์ ์ฌ์ ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ ์์ด ์ํคํผ๋์ ๋ฐ์ดํฐ์ ๊ณผ ํ ๋ก ํ ์ฑ ๋ง๋ญ์น๋ก ํฌ๊ธฐ๋ 16GB์ด๋ค. ROBERTa๋ ์ฌ๊ธฐ์ CC-News, Open WebText, Stories๋ฅผ ์ผ๋ถ ์ถ๊ฐํ์ฌ ์ด 160GB๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
- ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์์ผ ํ์ต์ํด
- BERT๋ 256๊ฐ ๋ฐฐ์น๋ก 100๋ง ๋จ๊ณ๋ก ์ฌ์ ํ์ต์ ํ ๋ฐ๋ฉด, ROBERTa์์๋ 30๋ง ๋จ๊ณ์ ๋ํด 8000๊ฐ์ ๋ฐฐ์น๋ก ์ฌ์ ํ์ตํ๋ค. ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ฉด ํ์ต์๋๋ฅผ ๋๋ฆฌ๊ณ ๋ชจ๋ธ์ ์ฑ๋ฅ ๋ํ ํฅ์ ์ํฌ ์ ์๋ค.
- ํ ํฌ๋์ด์ ๋ก BBPE(Byte level BPE) ์ฌ์ฉ
- BERT๋ ์๋ ํผ์ค ํ ํฌ๋์ด์ ๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์ด๋ BPE์ ์ ์ฌํ๋ ๋จ์ํ ๋น๋์๊ฐ ์๋๋ผ ์ฐ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ณํฉ์์ ์ ํ๋ ํ ํฌ๋์ด์ง ๋ฐฉ๋ฒ์ด๋ค. ROBERTa์์ ์ฌ์ฉํ๋ BBPE๋ํ BPE์ ์ ์ฌํ๋ ์บ๋ฆญํฐ(๊ธ์)๊ฐ ์๋๋ผ ๋ฐ์ดํธ ํํ์ ์ํ์ค๋ฅผ ์ฌ์ฉํ๋ค.
ย
ย
ย
ย