๐Paper Review
[paper review] CLIP : Learning Transferable Visual Models From Natural Language Supervision
ย
Introduction
์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ์์ text-to-text Transformer๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ธ์ด ๋ชจ๋ธ๋ค์ ๋์ฉ๋์ ํฌ๋กค๋ง ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ํ์ต์ ํ์ฉํ์ฌ ๋น์ฝ์ ์ธ ๋ฐ์ ์ ๊ฐ์ ธ์์ต๋๋ค.
๋ฐ๋ฉด, ์ปดํจํฐ ๋น์ ์์๋ ์์ง imagenet๊ณผ ๊ฐ์ crowd-labeled dataset์ ํ์ฉํ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ค์ด ์ฃผ๋ฅผ ์ด๋ฃจ๊ณ ์์ต๋๋ค.
๋ณธ ๋
ผ๋ฌธ์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์๋ ๋์ฉ๋ ํฌ๋กค๋ง ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ฌ์ ํ์ต์ ์งํํ ์ ์๋๋ก image,text multi-modal ๊ตฌ์กฐ์ธ CLIP ๋ชจ๋ธ์ ์ ์ํ๊ณ ์์ต๋๋ค.
ย
๋ณธ ๋
ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋์ฉ๋์ image-text crawling dataset์ ์ฌ์ฉํ์ฌ, multi-modal model ํ์ต, Zero-shot์ ๊ฐํจ.
- crowd labeling(gold-label) ์์ด, raw text๋ฅผ ์ธ์ฝ๋ฉํ์ฌ ์ฌ์ฉ.
- Contrastive learning์ ํ์ฉํ์ฌ ํจ์จ์ ์ธ ํ์ต.
Proposed approach
ย
- contrastive pre-training

ํ์ต ๊ณผ์ ์ ๊ฐ๋จํฉ๋๋ค.
์ด๋ฏธ์ง์ ์ด๋ฏธ์ง์ ๋ํ raw text pair๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ๊ฐ์ ์ธ์ฝ๋๋ฅผ Contrastive learning์ ํตํด ํ์ต ์ํต๋๋ค. ์ธ์ฝ๋๋ ์๋์ ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค.
text encoder : c-bow or Transformer
Image encoder : ResNet or Vision Transformer

์์๋ค์ํผ, Contrastive learning์ positive set์ ๋ํด์๋ ์๋ก cosine ์ ์ฌ๋๋ฅผ ๋์ด๊ณ ,
negative set์ ๋ํด์๋ ์๋ก cosine ์ ์ฌ๋๋ฅผ ๋ฎ์ถ๋ ํํ๋ก ํ์ต์ด ์งํ๋ฉ๋๋ค.
์ด ๋, symmetric loss๋ฅผ ์ํด axis 1, axis 0์์ ๋ชจ๋ loss๊ฐ์ ๊ณ์ฐํด์ค๋๋ค.
<๊ทธ๋ฆผ 2>์ pseudocode๋ฅผ ํตํด์๋ ์ด๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
ย
๋ง์ฝ N๊ฐ์ (image,text) pair๊ฐ batch๋ก ๋ค์ด์จ๋ค๋ฉด, NxN์ ๊ฐ๋ฅํ prediction pair ์ค, ๊ฐ์ positive pair์ ๊ฐ์ negative pair๊ฐ ๋ฐ์ํ ๊ฒ ์
๋๋ค. <๊ทธ๋ฆผ 1>์ ์ฐธ๊ณ ํ์ธ์~!
ย
Contrastive learning์ ํจ์จ์ฑ์ ์๋์ # of trained images(x) , Zero-shot acc(y) ๊ทธ๋ํ๋ฅผ ํตํด์๋ ํ์ธํ ์ ์์ต๋๋ค.

Experiments
Zero-shot task์์ ๋งค์ฐ ํฐ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์์ต๋๋ค.

๊ธฐ์กด supervised baseline์ ์ผ๋ถ benchmark์์ ๋ฐ์ด๋๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.

ย