๐Ÿ“‘Paper Review

[paper review] RoBERTa: A Robustly Optimized BERT Pretraining Approach

date
Nov 20, 2023
slug
RoBERTa
author
status
Public
tags
paper
DeepLearning
summary
type
Post
thumbnail
category
๐Ÿ“‘Paper Review
updatedAt
Sep 6, 2024 02:17 PM
ย 

ROBERTa == BERT์—์„œ ์‚ฌ์ „ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์„ ๋ฐ”๊พธ๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ฆฐ ๋ชจ๋ธ

ย 
ROBERTa๋Š” BERT ๋ชจ๋ธ์ด ์–ธ๋”ํ”ผํŒ…๋˜์—ˆ์Œ์„ ํ™•์ธํ•˜์—ฌ ๊ธฐ์กด BERT์— ๋Œ€ํ•ด ์‚ฌ์ „ํ•™์Šต์‹œ ๋ช‡๊ฐ€์ง€ ์ˆ˜์ •์‚ฌํ•ญ์„ ๋‘๊ณ  ์ƒˆ๋กญ๊ฒŒ ํ›ˆ๋ จํ•œ ๋ชจ๋ธ์ด๋‹ค.
  • BERT์˜ ์‚ฌ์ „ํ•™์Šต ๋ฐฉ๋ฒ•์€ MLM, NSP ๋‘๊ฐ€์ง€ ์ด๋‹ค.
ย 
ย 
  • mlm์‹œ ๋™์  ๋งˆ์Šคํ‚น๋ฐฉ๋ฒ• ์‚ฌ์šฉ
    • ๊ธฐ์กด์˜ BERT์—์„œ๋Š” ์ •์  ๋งˆ์Šคํ‚น ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ํ•™์Šต์ด ์‹œ์ž‘๋˜๊ธฐ ์ „ ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„์—์„œ ๋ฌธ์žฅ์— ๋Œ€ํ•ด ํ•œ๋ฒˆ ๋งˆ์Šคํ‚น์„ ํ•˜๋ฉด ๋™์ผํ•˜๊ฒŒ ๋งˆ์Šคํ‚น๋œ ์ƒํƒœ๊ฐ€ ๋งค ์—ํญ๋งˆ๋‹ค ์‚ฌ์šฉ๋˜๋Š” ๋งˆ์Šคํ‚น ๋ฐฉ์‹์„ ๋งํ•œ๋‹ค. ์ฆ‰ ํ•˜๋‚˜์˜ ๋ฌธ์žฅ์ด ํ•œ๋ฒˆ ๋งˆ์Šคํ‚น ๋˜๋ฉด ๋‹ค๋ฅธ ํ† ํฐ์˜ ๋งˆ์Šคํ‚น๋  ๊ธฐํšŒ๊ฐ€ ์—†์–ด์ง€๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ROBERTa์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋งˆ์Šคํ‚น ๋ฐฉ๋ฒ•์—์„œ๋Š” ๋˜‘๊ฐ™์€ ๋ฌธ์žฅ์„ 10๊ฐœ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๊ฐ๊ฐ ๋ฌด์ž‘์œ„๋กœ 15%ํ™•๋ฅ  ๋งˆ์Šคํฌ ์ž‘์—…์„ ํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•˜๋‚˜์˜ ๋ฌธ์žฅ์ด ์„œ๋กœ ๋‹ค๋ฅธ ํ† ํฐ์ด ๋งˆ์Šคํ‚น๋œ ํ˜•ํƒœ๊ฐ€๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋™์ผํ•œ ๋ฌธ์žฅ์˜ ๋‹ค๋ฅธ ๋ถ€๋ถ„์ด ๋งˆ์Šคํ‚น๋œ ํ˜•ํƒœ๊ฐ€ ๋งค ์—ํญ ํ•™์Šต๋˜์–ด ๋‹ค์–‘์„ฑ์ด ์ฆ๊ฐ€ํ•œ๋‹ค.
  • NSP๋ฅผ ์ œ๊ฑฐํ•จ.
    • ์‹คํ—˜ ๊ฒฐ๊ณผ MLM, NSP๋ฅผ ๋‘˜ ๋‹ค ์‚ฌ์ „ํ•™์Šต์— ์ด์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค NSP๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  MLM๋งŒ ์‚ฌ์šฉํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋” ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•˜์˜€๋‹ค.
  • ๋ฐ์ดํ„ฐ ์–‘์„ ๋Š˜๋ฆผ
    • BERT์˜ ์‚ฌ์ „ํ•™์Šต์— ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ๋Š” ์˜์–ด ์œ„ํ‚คํ”ผ๋””์•„ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ† ๋ก ํ†  ์ฑ… ๋ง๋ญ‰์น˜๋กœ ํฌ๊ธฐ๋Š” 16GB์ด๋‹ค. ROBERTa๋Š” ์—ฌ๊ธฐ์— CC-News, Open WebText, Stories๋ฅผ ์ผ๋ถ€ ์ถ”๊ฐ€ํ•˜์—ฌ ์ด 160GB๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.
  • ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ€์‹œ์ผœ ํ•™์Šต์‹œํ‚ด
    • BERT๋Š” 256๊ฐœ ๋ฐฐ์น˜๋กœ 100๋งŒ ๋‹จ๊ณ„๋กœ ์‚ฌ์ „ํ•™์Šต์„ ํ•œ ๋ฐ˜๋ฉด, ROBERTa์—์„œ๋Š” 30๋งŒ ๋‹จ๊ณ„์— ๋Œ€ํ•ด 8000๊ฐœ์˜ ๋ฐฐ์น˜๋กœ ์‚ฌ์ „ํ•™์Šตํ–ˆ๋‹ค. ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋ฉด ํ•™์Šต์†๋„๋ฅผ ๋Š˜๋ฆฌ๊ณ  ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ๋˜ํ•œ ํ–ฅ์ƒ ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.
  • ํ† ํฌ๋‚˜์ด์ €๋กœ BBPE(Byte level BPE) ์‚ฌ์šฉ
    • BERT๋Š” ์›Œ๋“œ ํ”ผ์Šค ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ด๋Š” BPE์™€ ์œ ์‚ฌํ•˜๋‚˜ ๋‹จ์ˆœํžˆ ๋นˆ๋„์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ผ ์šฐ๋„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ณ‘ํ•ฉ์ž‘์—…์„ ํ•˜๋Š” ํ† ํฌ๋‚˜์ด์ง• ๋ฐฉ๋ฒ•์ด๋‹ค. ROBERTa์—์„œ ์‚ฌ์šฉํ•˜๋Š” BBPE๋˜ํ•œ BPE์™€ ์œ ์‚ฌํ•˜๋‚˜ ์บ๋ฆญํ„ฐ(๊ธ€์ž)๊ฐ€ ์•„๋‹ˆ๋ผ ๋ฐ”์ดํŠธ ํ˜•ํƒœ์˜ ์‹œํ€€์Šค๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
ย 
ย 
ย 
ย